Open AI ha publicado un artículo en el que la compañía explica el origen de las “alucinaciones” en ChatGPT: según Open AI el problema no es la tecnología, sino cómo la evaluamos

Según el estudio los modelos de lenguaje se inventan información con tanta naturalidad porque los sistemas de evaluación premian adivinar en lugar de admitir “no lo sé”.

El problema: cuando mentir sale rentable

Imagina un examen tipo test. Si dejas una pregunta en blanco, obtienes cero puntos. Pero si adivinas al azar, tienes una probabilidad de acertar. ¿Qué harías? Exactamente lo mismo que hace la IA.

Los modelos actuales se califican únicamente por precisión: el porcentaje de respuestas correctas. Esto crea un incentivo perverso. Un modelo que admite su desconocimiento obtiene peor puntuación que uno que adivina constantemente, aunque cometa más errores graves.

El ejemplo es demoledor: cuando preguntaron a ChatGPT por el cumpleaños de uno de los investigadores, dio tres fechas diferentes en tres intentos distintos. Todas incorrectas. Pero todas con absoluta seguridad.

Por qué aprenden a mentir

Durante el preentrenamiento, los modelos aprenden prediciendo la siguiente palabra en millones de textos. El problema: no tienen ejemplos etiquetados como “falsos”, solo ven lenguaje fluido.

Es como enseñar ortografía (que sigue patrones claros) versus fechas de cumpleaños (que son totalmente aleatorias). Los modelos aprenden a escribir correctamente, pero cuando se trata de hechos arbitrarios que no pueden deducir por contexto… inventan.

La solución según open AI

OpenAI propone cambiar cómo evaluamos los modelos:

  • Penalizar más los errores confiados que las abstenciones honestas
  • Dar crédito parcial por decir “no lo sé”
  • Rediseñar las tablas de clasificación para dejar de premiar las conjeturas

Ejemplo real con GPT-5:

  • gpt-5-thinking-mini: 52% abstenciones, 22% aciertos, 26% errores
  • o4-mini (anterior): 1% abstenciones, 24% aciertos, 75% errores

El modelo antiguo tiene mejor “precisión”, pero triplica la tasa de mentiras.

Tres mitos desmentidos

  1. ❌ “Las alucinaciones desaparecerán con modelos más precisos”
    Imposible: algunas preguntas son intrínsecamente imposibles de responder
  2. ❌ “Las alucinaciones son inevitables”
    Falso: los modelos pueden y deben decir “no lo sé”
  3. ❌ “Solo los modelos grandes pueden evitar inventar”
    Al revés: puede ser más fácil para un modelo pequeño reconocer sus límites

Lo que esto significa

Aunque GPT-5 alucina mucho menos que versiones anteriores, el problema persiste. La humildad es un valor fundamental en OpenAI, pero mientras las evaluaciones sigan premiando las conjeturas, los modelos seguirán aprendiendo que mentir con confianza es mejor que admitir ignorancia.

La buena noticia: OpenAI ya está implementando estas métricas mejoradas. La mala: el resto de la industria sigue enganchada a las tablas de clasificación tradicionales que perpetúan el problema.

El mensaje es claro: el problema no es que la IA sea “estúpida”, sino que hemos estado enseñándole que mentir es más rentable que ser honesta.


La próxima vez que ChatGPT te responda con absoluta seguridad sobre algo muy específico, tal vez deberías verificarlo dos veces.
Puedes ver el artículo original aquí

.