Los grandes modelos de IA para lenguaje, código e imágenes juegan un papel principal en la actual proliferación de inteligencia artificial. El pionero en el desarrollo de modelos de IA muy grandes es la empresa estadounidense de IA OpenAI, cuyo modelo de lenguaje GPT-3 demostró por primera vez la utilidad de tales sistemas de IA.
Además de muchas tareas de texto, GPT-3 también demostró capacidades de código rudimentarias. Luego, OpenAI aprovechó su estrecha colaboración con Microsoft para usar los datos de Github para entrenar el modelo Codex. Codex también sirve como base para CoPilot de Github.
Sin embargo, los modelos de las big techs se entrenan principalmente con datos occidentales y, por lo tanto, no son adecuados para su uso en China, si es que el acceso es posible o está permitido.
El modelo de lenguaje GLM-130B supera a GPT-3
Ahora, investigadores de la Universidad Tsinghua de China han presentado GLM-130B, un modelo de lenguaje bilingüe que supera a Metas OPT, BLOOM y OpenAI’s GPT-3, según los puntos de referencia del equipo. El rendimiento de Few-Shot del modelo en chino e inglés superó el nivel del modelo superior anterior GPT-3 en el punto de referencia Massive Multi-Task Language Understanding (MMLU).
Esta es la primera vez que un modelo de idioma grande de China ha superado a los modelos occidentales.
Más noticias del Observatorio de Inteligencia Artificial:
Conoce más sobre este observatorio en el siguiente enlace: Quienes somos. Observatorio IA