El avance tecnológico en el ámbito de la inteligencia artificial ha llevado a desarrollos significativos en la síntesis de habla, permitiendo la creación de audios que imitan con gran fidelidad el timbre y la entonación humana. Esta capacidad de replicar la voz humana con gran precisión presenta tanto oportunidades como desafíos, especialmente en contextos donde la autenticidad del audio es crítica, como en la verificación de identidades, el periodismo o la producción de contenidos multimedia.

Con el objetivo de abordar estos retos, Meta ha desarrollado AudioSeal, una herramienta pionera en la inserción de marcas de agua digitales en audios generados por IA. Este enfoque es esencial para la validación de la procedencia del audio en una era donde la distinción entre lo auténtico y lo artificial puede ser difusa y donde las consecuencias de la desinformación pueden ser de gran alcance.

Fuente: Freepik

La solución de IA de la empresa fundada por Mark Zuckerberg se basa en una arquitectura de generador/detector. El generador introduce una marca de agua acústica imperceptible durante la fase de síntesis del habla. Esta marca de agua actúa como una firma digital que, aunque imperceptible para el oído humano, puede ser detectada con precisión por el detector correspondiente. El proceso de detección se lleva a cabo con tal precisión que permite la localización de segmentos generados por IA a una escala microscópica de tiempo.

La detección rápida y eficiente de AudioSeal lo posiciona como una herramienta de gran valor para plataformas que manejan grandes volúmenes de contenido de audio y para aplicaciones que requieren verificación en tiempo real. La velocidad con la que opera el detector es crucial para los entornos de producción rápida, como las redacciones de noticias en tiempo real o los servicios de verificación de contenidos que operan las redes sociales y otras plataformas digitales.

Fuente: https://arxiv.org/abs/2401.17264v1

El diagrama anterior ilustra el flujo de trabajo desde la generación de la voz por IA hasta su publicación y posterior verificación. El modelo de habla genera el audio, el generador de marca de agua aplica la marca y, después de cualquier edición y publicación, el detector de marcas de agua examina el audio para confirmar su autenticidad o revelar su naturaleza sintética. La capacidad para verificar proactivamente si un discurso es generado por IA e identificar el modelo que lo generó es fundamental en la era de la información en la que vivimos.

Además, la utilidad de AudioSeal no se limita solo a la prevención del fraude o la falsificación; también ofrece beneficios en el ámbito de los derechos de autor y la gestión de contenidos, asegurando que los creadores y distribuidores puedan proteger y rastrear sus activos de audio en un paisaje digital cada vez más complejo.

NOTICIAS RELACIONADAS