La idea de hablar con los animales ha sido una de las fantasías más persistentes de la humanidad. Saber que quiere tu gato, o que está pensando tu perro o tu periquito…. Entender el lenguaje de los animales parece una posibilidad que está cerca de materializarse gracias al desarrollo de la Inteligencia Artificial.
Los avances en el campo de la IA, especialmente en los modelos LLM están abriendo una nueva frontera científica y los investigadores están adaptando estos potentes algoritmos para analizar no solo el lenguaje humano, sino también los complejos sistemas de vocalizaciones del reino animal.

La unión entre la IA y la bioacústica está haciendo que parezca viable desde decodificar las conversaciones de los delfines hasta proteger ecosistemas enteros a través del sonido, lo que podría cambiar nuestra relación con el mundo natural para siempre.
Los modelos de lenguaje que usamos a diario se entrenan con enormes cantidades de texto para aprender a predecir la siguiente palabra en una oración. Ese mismo principio se está aplicando en proyectos como DolphinGemma de Google DeepMind aplicando las mismas técnicas pero usando audios de décadas de grabaciones de vocalizaciones de delfines en lugar de texto.
La función principal de DolphinGemma es procesar secuencias de sonidos naturales de delfines para identificar patrones, estructuras y, en última instancia, predecir cuáles serán los siguientes sonidos en una secuencia. No se trata simplemente de crear un catálogo de sonidos diferentes, sino de empezar a comprender la gramática y la sintaxis subyacentes de la comunicación de los delfines.
El objetivo final del proyecto es establecer un “vocabulario compartido” que, con el tiempo, podría permitir una comunicación bidireccional. Al entender la estructura de su lenguaje, podríamos estar sentando las bases para nuestras primeras conversaciones reales con otra especie inteligente.
La IA está facilitando que barrera lingüística entre las especies ya se esté volviendo “porosa” y aunque todavía no podemos mantener un diálogo complejo, ya se han producido interacciones que demuestran que una comunicación básica es posible. Un ejemplo de esta interacción ocurrió en Alaska, donde un grupo de científicos mantuvo una “conversación” acústica de 20 minutos con una ballena jorobada llamada Twain. Los investigadores emitieron una llamada de contacto conocida como “whup/throp”, y Twain respondió de la misma manera, participando en un intercambio de llamada y respuesta que sugiere un compromiso intencionado.
Otro hito se produjo en un estudio de 2013 en el que unos científicos habían entrenado a un grupo de delfines para que asociaran un sonido específico con la palabra “sargazo”. Más tarde, al analizar las interacciones naturales del grupo con un algoritmo de IA, identificaron que los delfines habían incorporado ese sonido a su vocabulario nativo para referirse a esa alga. Fue la primera vez que se registró una “palabra” pasando de los humanos al lenguaje de otra especie.
Otro proyecto interesante desarrollado también por Google DeepMind es Perch un avanzado modelo de inteligencia artificial específicamente diseñado para ayudar a los conservacionistas a analizar datos bioacústicos de manera más rápida y eficiente para proteger especies en peligro de extinción. Perch ha sido entrenado con una amplia variedad de sonidos, no solo de aves, sino también mamíferos, anfibios e incluso el ruido antropogénico (sonidos generados por la actividad humana). Esto le permite evaluar la salud general de un ecosistema a través de su “banda sonora”.
Perch utiliza una técnica llamada “modelado ágil”, que combina la búsqueda por vectores con el aprendizaje activo. Esto permite a los científicos crear clasificadores de alta calidad en menos de una hora partiendo de un solo ejemplo de sonido, lo cual es vital para monitorear especies con datos de entrenamiento escasos. El modelo ha demostrado ser eficaz no solo en entornos terrestres, sino también en ecosistemas submarinos, como los arrecifes de coral. Además puede procesar miles o millones de horas de grabaciones capturadas por micrófonos o hidrófonos en la naturaleza. Es capaz de desenredar escenas acústicas complejas para identificar qué animales están presentes y ofrecer pistas sobre la salud de un ecosistema.
Desde su lanzamiento inicial en 2023, Perch ha sido fundamental en varios proyectos de conservación, en Ayudó a BirdLife Australia a identificar una nueva población del escurridizo errante de las llanuras (Plains Wanderer). En el Laboratorio de Bioacústica LOHE, ayudó a encontrar sonidos de mieleros hawaianos (aves amenazadas por la malaria aviar) casi 50 veces más rápido que los métodos tradicionales.
Perch es un modelo abierto que está disponible para la comunidad científica y el público a través de plataformas como Kaggle. Además, sus herramientas se han integrado en otros sistemas ampliamente utilizados, como el BirdNet Analyzer de la Universidad de Cornell.
¿Qué desafíos éticos y científicos enfrentamos al intentar traducir lenguajes de otras especies?
La traducción de lenguajes de otras especies presenta una serie de obstáculos complejos que abarcan desde la interpretación técnica de datos acústicos hasta profundos dilemas filosóficos sobre nuestra relación con la naturaleza.
Desafíos científicos y técnicos
Según los especialistas el principal reto científico radica en descifrar lo que los investigadores llaman “gramáticas ocultas” dentro de millones de vocalizaciones animales. Los modelos de lenguaje actuales, como DolphinGemma, están siendo entrenados para aprender la estructura de los sonidos y predecir secuencias, de manera similar a como un modelo humano predice la siguiente palabra. Sin embargo, surgen dificultades específicas como:
• Diferencia de percepción (el Umwelt): Los animales habitan mundos sensoriales (umwelten) radicalmente distintos al humano, utilizando señales químicas, térmicas, mecánicas y visuales que nosotros no percibimos de la misma forma. Por ejemplo, para animales que usan la ecolocalización, las ondas sonoras pueden traducirse en imágenes visuales, lo que hace difícil entender qué significa realmente el “sonido” para ellos.
• Complejidad y estructura. Las especies como los cetáceos muestran estructuras jerárquicas complejas, turnos para hablar y dialectos distintos. Identificar patrones recurrentes y “vocabularios compartidos” requiere analizar una gran cantidad de conjuntos de datos de audio y video para asociar sonidos con comportamientos específicos.
• Análisis de grandes volúmenes de datos. Modelos como Perch deben ser capaces de desenredar escenas acústicas complejas en miles o millones de horas de grabación para identificar especies individuales o incluso sonidos específicos como llamadas de crías.
Desafíos Éticos y Filosóficos
Más allá de la técnica, la posibilidad de comunicarnos con otras especies plantea interrogantes sobre el impacto que esto tendría en ellas y en nosotros, entre ellos:
• Alteración de la identidad de la especie. Existe el riesgo de que, al intentar traducir el lenguaje de un animal, terminemos imponiendo nuestras propias categorías humanas sobre ellos. Como sugiere el autor David Farrier, si pudiéramos hablar con un león, es posible que el acto de la comunicación lo transformara tanto que “ya no sería un león”.
• Responsabilidad y acción. Un desafío ético fundamental es que, aunque todavía no “hablamos” con los animales, ya somos capaces de entender lo que la naturaleza nos dice a través de la degradación de sus ecosistemas, pero a menudo elegimos no escuchar. La pregunta es si una traducción literal cambiaría nuestra disposición a proteger el medio ambiente o si simplemente sería otra herramienta que ignoramos.
• Ruido antropogénico e onterferencia: El ruido generado por la minería y el transporte marítimo ya está ahogando las voces de especies como las ballenas jorobadas, que dejan de cantar para no competir con el estruendo humano. Irónicamente, las actividades humanas necesarias para fabricar la tecnología con la que queremos comunicarnos están silenciando a las especies que deseamos escuchar.