Como ejemplo de algunas de las investigaciones empíricas investigadores han examinado recientemente el rendimiento de los sistemas de diálogo, de los asistentes personales y los chatbots diseñados para interactuar con los humanos. Se descubrió que cuando estos sistemas se enfrentan a diálogos que incluyen modismos o símiles, su rendimiento cae entre un 10 y un 20 por ciento.

El equipo de investigación también desarrolló un remedio parcial. Escribieron un guión simple que identifica frases figurativas y las reemplaza con su significado literal. Como resultado, el rendimiento de los sistemas de diálogo mejoró hasta en un 15 por ciento.

Los investigadores están presentando sus hallazgos en la Conferencia de 2021 sobre métodos empíricos en el procesamiento del lenguaje natural , del 7 al 11 de noviembre de 2021.

https://2021.emnlp.org/

Las aplicaciones para este trabajo incluyen no solo asistentes personales, sino también sistemas diseñados para resumir información, como el cuadro que resume los resultados de búsqueda en la parte superior de una página de Google. Los sistemas automatizados que necesitan responder preguntas, por ejemplo, cuando es necesario pagar una factura o concertar una cita, también se beneficiarían de este trabajo.

“Queremos permitir conversaciones más naturales entre las personas y los sistemas de diálogo”, dijo Harsh Jhamtani, primer autor del artículo.

Jhamtani es un Ph.D. de la Universidad Carnegie Mellon y actualmente trabaja como investigador invitado con el autor principal Taylor Berg-Kirkpatrick, miembro de la facultad del Departamento de Ciencias de la Computación e Ingeniería de UC San Diego.

El estudio se inspiró en las propias luchas de Jhamtani con el lenguaje figurativo. Él es un hablante nativo de hindi y también habla inglés, el otro idioma oficial de la India. Pero tuvo que aprender los muchos modismos y metáforas estadounidenses que usan sus colegas.

Por ejemplo, entró en pánico cuando un colega dijo que se estaban muriendo de hambre porque en hindi eso podría indicar una emergencia médica. Su colega luego explicó que solo significaba que tenía hambre. Para entonces, Jhamtani se preguntaba si los sistemas de diálogo artificial tendrían el mismo problema que él.

En el estudio, los investigadores probaron cinco sistemas diferentes diseñados para hablar con humanos, incluido GPT-2, que está capacitado para predecir la siguiente palabra en 40 GB de texto de Internet y fue desarrollado por OpenAI.

Los investigadores primero ejecutaron los sistemas de diálogo a través de un conjunto de datos de 13.1K conversaciones sobre temas coloquiales como turismo, salud, etc. Luego extrajeron las conversaciones que incluían lenguaje figurado del conjunto de datos y ejecutaron los sistemas solo a través de ellos. Observaron una caída en el rendimiento que oscila entre el 10 y el 20 por ciento.

Esto muestra una conversación entre un humano y un chatbot.
Los investigadores escribieron un guión simple que identifica frases figurativas y las reemplaza con su significado literal. Como resultado, el rendimiento de los sistemas de diálogo mejoró hasta en un 15 por ciento.

Luego escribieron un guión que permitió a los sistemas verificar rápidamente los diccionarios que traducen el habla figurativa en habla literal. Esto es más rápido y más eficiente que los sistemas de reentrenamiento para aprender el contenido completo de estos diccionarios. Los investigadores observaron que el rendimiento mejoró hasta en un 15 por ciento.

Los investigadores todavía tenían que depender parcialmente de los observadores humanos para identificar el lenguaje figurativo dentro del conjunto de datos, antes de que el texto pudiera convertirse. Se necesitan más estudios en esta área.

Investigación de la solidez de los modelos de diálogo con las construcciones populares del lenguaje figurativo

Harsh Jhamtani, Varun Gangal, Eduard Hovy, Facultad de Ciencias de la Computación, Universidad Carnegie Mellon

Taylor Berg-Kirkpatrick, Departamento de Ingeniería y Ciencias de la Computación, Universidad de California en San Diego