Meta ha anunciado el lanzamiento de dos nuevos modelos bajo el paraguas de su serie Llama: el Llama 3 8B y el Llama 3 70B. Según la compañía dirigida por Mark Zuckerberg, se trata de un hito importante en la evolución de los modelos generativos de IA, presentando avances significativos sobre sus predecesores y estableciendo nuevos estándares de rendimiento en la industria.
¿Los nuevos gigantes?
El modelo Llama 3 8B, con 8 mil millones de parámetros, y el Llama 3 70B, con 70 mil millones, representan un salto cuantitativo y cualitativo respecto a las iteraciones anteriores. Meta ha entrenado estos modelos en dos clusters de 24.000 GPU personalizados, demostrando capacidades que los colocan, en principio, entre los modelos de IA generativa más efectivos del momento para sus respectivos tamaños.
Llama 3 8B ha superado a modelos competidores como el Mistral 7B de Mistral y el Gemma 7B de Google en al menos nueve benchmarks, demostrando un mejor rendimiento en una gama de pruebas que incluyen desde problemas matemáticos hasta evaluaciones de razonamiento común. Sin embargo, es el Llama 3 70B el que realmente destaca al competir directamente con modelos de alto rendimiento como el Gemini Pro 1.5 de Google y el Claude 3 Sonnet de Anthropic. Meta afirma que el Llama 3 70B supera al Gemini Pro 1.5 en benchmarks como MMLU y HumanEval, y también obtiene mejores resultados que el Claude 3 Sonnet en múltiples evaluaciones.
Una de las claves del avance de Llama 3 es el enorme conjunto de datos utilizado para su entrenamiento, compuesto por 15 mil millones de tokens. Esta colosal base de datos no solo es siete veces superior que la del Llama 2, sino que también incorpora una diversidad lingüística significativamente mayor, con datos en una treintena de idiomas, lo que potencialmente mejora el rendimiento en idiomas distintos al inglés.
Seguridad y confiabilidad
Meta afirma no solo haber mejorado el rendimiento de sus modelos, sino que también dice haber tomado medidas para abordar problemas comunes como la toxicidad y los sesgos en la IA. La empresa ha desarrollado nuevas pipelines de filtrado de datos y ha actualizado sus suites de seguridad IA, como Llama Guard y CybersecEval, para prevenir el uso indebido y la generación de textos no deseados.
Disponibilidad con restricciones de uso
Los modelos Llama 3 ya están disponibles para descarga y son la fuerza detrás del asistente AI de Meta en plataformas como Facebook, Instagram y WhatsApp. Aunque la compañía describe estos modelos como “abiertos”, ha establecido restricciones sobre su uso, especialmente en aplicaciones comerciales y en el entrenamiento de otros modelos generativos, lo que ha generado cierto debate sobre la verdadera “apertura” de estos recursos.