El Periódico periodico.com y el Diario Información informacion.es han publicado un artículo del periodista David Navarro que resume los inicios y recopila algunos de los éxitos conseguidos por 1MillionBot: «Los asistentes virtuales que hablan el idioma de la calle«, titular que indica una de las ventajas del PLR (procesamiento de lenguaje real) en las tasas de éxito de los chatbots conversacionales basados en IA.
Procesamiento de Lenguaje Natural (PLN) vs Procesamiento del Lenguaje Real (PLR)
Generalmente las empresas tecnológicas vienen aplicando la inteligencia artificial y la lingüística para estudiar y construir interacciones entre las computadoras y el lenguaje humano. Es lo que se conoce por Procesamiento de Lenguaje Natural (PLN). En 1MillionBot se obsesionaron desde el principio por identificar la complejidad y diversidad del «Procesamiento de Lenguaje Real», el que realmente utilizan las personas, el leguaje de la calle.
La diferencia entre el PLN y PLR es que ante la falta de datos, el PLN se construye sobre bases muy teóricas o un data artificioso. Por ejemplo se recurre a bases de datos de sinónimos, diálogos de películas, redes sociales donde los humanos hablamos a modo de «titulares periodísticos» (Twitter), etc. Este no es el lenguaje real.
El PLR se construye a través de Procesamiento del Lenguaje que practican realmente las personas cada día. Es caótico pues cada persona es un pequeño mundo en sí mismo . Además un idioma concreto como el español presenta un infinita diversidad en cada región o país del mundo donde se habla.
1MillionBot durante más de un año estuvo entrenando chatbots con los millones de usuarios de euroresidentes.com (Euroresidentes LAB) en temáticas muy populares y diversas (horóscopos, mascotas, sexualidad, menupausia, Papa Noel, trámites administrativos, criptomonedas…). A raíz de ahí empezamos a construir patrones muy valiosos. En lenguaje ral que utilizan niños, adolescentes, jóvenes, mayores, diferentes géneros…
Los humanos, en sus primeras interacciones con un chatbot, especialmente los jóvenes, sienten la necesidad de insultar o decir algo absurdo o disparatado -muchas veces incluso propuestas sentimentales o sexuales-. Este tipo de interacción es relevante, con un porcentaje que puede situarse hasta en un 30%.
Y el problema es que en Madrid el usuario puede llamarle al bot: «idiota» y en México «pendejo»; en Asturias dicen «guapina» y en Murcia «guapica»; y así en cada país o región. Las diferencias generacionales son también importantísimas: «los mayores suelen enrollarse con detalles y hay que provocar que finalmente concreten las cosas y los jóvenes son escuetos y hablan con emoticonos y abreviaturas«, nos comenta Raquel Pomares directora del equipo de lingüistas.
Cuando alcanzamos el millón de interacciones y construimos el «Procesamiento de Lenguaje Real» obtuvimos nuestra recompensa. La tasa de acierto alcanzada -medida por Google- llegó al 91%. De ese millón de interacciones surgió la idea de llamarle a la empresa One Million Bot SL con el dominio 1Millionbot.com. Este fue el origen del nombre/marca de 1MillionBot.
Ese récord lo hemos batido después ampliamente, superando sistemáticamente el 95% y llegando a alcanzar en la Universidad de Zaragoza al nuevo récord del 98%, señala Raquel Pomares.
Efectivamente, la clave está en utilizar el lenguaje de la calle, tal como apunta el periodista David Navarro.
Fuente: