El alcance del mundo del procesamiento del lenguaje natural

  • Autor de la entrada:
En este momento estás viendo El alcance del mundo del procesamiento del lenguaje natural
Imagen de Ivan Samkov para Pexels en Canva. Diseño inspirado en portadas de Superfluor.

Tiempo estimado de lectura: 7 minutos.

No os podéis imaginar lo emocionada que estoy con los avances en procesamiento del lenguaje natural y a cuántos sentimientos encontrados me enfrento.

Según investigo, menos sé pero más me gusta cuando extraigo un mínimo sentido y doy un paso más hacia el entendimiento.

En fin, reflexiones a raíz de los días que llevo analizando los algoritmos detrás de DALL-E2, la arquitectura que genera imágenes a partir de texto presentada recientemente por OpenAI.

De todos los estudios analizados, cayó en mis manos uno que me gustó especialmente.  Dice la publicación que:

Los avances en el campo del entendimiento del lenguaje no son rápidos porque, de cara a las máquinas, aún no somos capaces de relacionar el lenguaje con el mundo físico que representa y con las interacciones sociales que facilita.

Los modelos analíticos utilizan una gran cantidad de datos proveniente de Internet pero no es suficiente. Necesitan información adicional sobre “eventos extralingüísticos” y sobre el contexto social para que el aprendizaje sea completo.

Con esto, los autores definen un marco que llaman “el alcance del mundo” con el que aspiran auditar el avance en la evolución del procesamiento del lenguaje natural (PLN).

Este artículo pretende sintetizar las principales ideas detrás del artículo original.

El alcance del mundo

Los grandes modelos analíticos utilizan una gran cantidad de datos de Internet, pero no es suficiente para convertirse en IA general. Precisan señales adicionales para una comprensión completa. Tienen que aprender igual que lo hacen los niños.

«El alcance del mundo» es un marco de trabajo definido por Yonatan Bisk, Ari Holtzman, Jesse Thomason et. al para auditar el progreso en el campo del procesamiento del lenguaje natural, más concretamente en el «entendimiento del lenguaje natural».

Se definen  cinco niveles que, aunque centrados en cómo aprende la máquina, se pueden extrapolar con los grados de conocimiento adquiridos por esta:

  • Primer nivel: Aprendizaje a partir de un corpus de lenguaje.
  • Segundo nivel: Aprendizaje desde Internet
  • Tercer nivel: Aprendizaje multimodal a través de la percepción sonora y visual.
  • Cuarto nivel: Aprendizaje interactivo (embodiment)
  • Quinto nivel: Aprendizaje del contexto social.

Veamos uno por uno en mayor detalle.

Nivel 1: Aprendizaje a partir del corpus del lenguaje

Engloba los experimentos basados en conjuntos de lenguaje escrito etiquetados de forma manual y por ello costosos de construir.

Las representaciones de estos datos (embeddings) son capaces de capturar información sintáctica y semántica pero se quedan cortos y el coste de generar más información los limita.

Nivel 2: Aprendizaje a partir de Internet

Con los sistemas de extracción de información de Internet (web crawlers), no estamos limitados a una fuente de información sino que somos capaces de acceder a grandes volúmenes de información escrita.

Se introducen los grandes modelos del lenguaje (ElMo, GPTx, BERT, T5,…) capaces de extraer información sintáctica y semántica sin indicación humana.

Este tipo de modelos se limitan al mundo escrito lo que, en cierto modo, reduce su conocimiento a relacionar palabras y eventos co-ocurrentes, sin capturar muchas de las características intrínsecas de las palabras y frases.

Por ejemplo: no son capaces de discernir cuándo colocar una palabra u otra en los corchetes de la siguiente oración: “Aparqué mi coche en una plaza de aparcamiento mediana porque parecía suficientemente [grande/pequeña]”.

Avanzar ya no sólo es cuestión de volumen. Se necesita otro tipo de información.

Nivel 3: Aprendizaje multimodal a través de la percepción visual y sonora 

Es donde estamos actualmente. Aprendiendo a partir de fuentes de información diversas y no sólo de los datos escritos.

La forma en que percibimos nuestro entorno determina la manera en que razonamos, vinculamos conceptos e ideas y las palabras que los describen. Es como aprendemos desde pequeños: tocando, mirando, oyendo, sintiendo nuestro mundo, no únicamente a través de texto.

Los modelos deben de poder mirar y reconocer objetos, personas y actividades para poder entender el lenguaje que los describe así como acceder a nociones más detalladas de causalidad, física e interacciones sociales.

Son estas facetas las que están explotando arquitecturas como DALL-E2 o Data2Vec.

Nivel 4: Aprendizaje interactuando con la máquina

ejemplo de interacción hombre_máquina
Ejemplo de interacción hombre-máquina: EntailmentWriter del Allen Institute for AI.

Hasta aquí hemos interactuado con la vista y el oído. Aquí, damos un siguiente paso para sentir el mundo, tocarlo, y actuar con él para identificar sutilezas que nuestros ojos u oídos no son capaces de discernir.

Para ello, hay que complementar el aprendizaje a través de un diálogo interactivo hombre-máquina, traduciendo el lenguaje en acción a través de simuladores y robots comerciales.

Recapitulando hasta aquí, creo que se va a entender mejor con este ejemplo (también de la publicación): le preguntamos al sistema: “una naranja, ¿se parece más a una pelota de béisbol o a un plátano?

– Primer nivel, el modelo solo puede contestar que los objetos son nombres comunes y que se puede agarrar.

– Segundo nivel, el modelo conoce la forma de los objetos, pero no su textura, tamaño relativo o la resistencia a la deformación.

– Tercer nivel, ya identifica tamaños pero no aprecia cuánta fuerza hay que ejercer sobre cada uno para deformarlo.

– Cuarto nivel, tiene claro que puede manipular las naranjas y las pelotas de béisbol de forma similar mientras que las frutas contienen piel, se deforman y son comestibles.

Nivel 5: Aprendizaje a partir del contexto social.

Por último, los cimientos de la aplicaciones de lenguaje natural son las comunicaciones interpersonales.

Estas tienen implícitas otras señales como la situación social, posición laboral, intención de la comunicación, etc. que complementan el significado del discurso, por lo que se tienen que enviar a la máquina junto con el resto de información.

Aún no está claro cómo se conseguirá extraer dichas señales, observadas a través de su efecto en el mundo, pero sí que se necesita un grado aún mayor de interacción donde las máquinas de procesamiento de lenguaje sean capaces de impactar en su entorno.

Conclusiones

Aunque ya está cambiando, la corriente mayoritaria ha sido enseñar nuestro mundo a la máquinas a través de muestras de datos independientes, sin añadir señales sobre como los humanos hacemos correlaciones e inferimos dependencias, es decir, sobre nuestra experiencia como personas.

El marco «el alcance del mundo» estructura los pasos necesarios para añadir de este conocimiento empírico de forma progresiva.

El aprendizaje es lento, actualmente estamos en el ecuador, aunque ya se están dando paso en niveles posteriores con tecnología para comunicar mejor nuestro conocimiento interactuando con los sistemas.

Referencias