Los LLM han cautivado particularmente a la comunidad de IA, pero según el Centro de Investigación de Modelos Básicos del Instituto Stanford para la IA Centrada en el Ser Humano (HAI), la ausencia de un estándar de evaluación ha comprometido la capacidad de la comunidad para comprender estos modelos, así como sus posibilidades y riesgos.
Con ese fin, el CRFM anunció hoy la Evaluación Holística de Modelos de Lenguaje (HELM), que dice que es el primer proyecto de evaluación comparativa destinado a mejorar la transparencia de los modelos de lenguaje y la categoría más amplia de modelos básicos. Liang y su equipo evaluaron 30 modelos de lenguaje de 12 organizaciones: AI21 Labs, Anthropic, BigScience, Cohere, EleutherAI, Google, Meta, Microsoft, NVIDIA, OpenAI, Tsinghua University y Yandex. Algunos de estos modelos son de código abierto para el público, otros están disponibles a través de API comerciales y otros son privados.
Ver más en: Stanford debuts first AI benchmark to help understand LLMs.