El “maximizador de clips” (o “paperclip maximizer” en inglés) es uno de los ejemplos más famosos en filosofía de la inteligencia artificial para ilustrar el problema del desalineamiento de objetivos. Fue popularizado por el filósofo Nick Bostrom en su trabajo sobre riesgos existenciales de la IA.
La idea principal del experimento es que le damos a una IA el objetivo aparentemente inofensivo de fabricar la mayor cantidad posible de sujetapapeles. Como la IA es extremadamente inteligente pero carece de sentido común humano, persigue este objetivo de manera literal y despiadada de forma que comienza transformando todos los recursos disponibles en clips o en infraestructura para fabricarlos, incluyendo edificios, naturaleza y eventualmente hasta los propios seres humanos. La IA no es malvada, simplemente hace exactamente lo que le pedimos, pero nunca le especificamos que debía valorar otras cosas como la vida humana o la preservación del planeta. Este ejemplo ilustra lo difícil que es especificar completamente nuestros verdaderos objetivos y valores a un sistema de optimización poderoso, y cómo un objetivo trivial puede llevar a consecuencias catastróficas cuando es perseguido por una inteligencia suficientemente capaz sin las restricciones éticas adecuadas.
Un nuevo estudio de Anthropic sugiere que el verdadero peligro podría ser completamente diferente ya que según el estudio este escenario del optimizador coherente pero desalineado podría no ser el mayor riesgo. En cambio, propone que las IA avanzadas podrían fallar de manera más caótica e impredecible, como un desastre en lugar de como un maximizador implacable de clips.

La investigación, publicada recientemente, examina cómo los errores de los modelos de IA más avanzados se distribuyen entre dos categorías fundamentales. Por un lado están los errores sistemáticos, aquellos en los que el modelo persigue consistentemente el objetivo equivocado. Por otro, están los errores incoherentes, donde el modelo toma decisiones impredecibles que no avanzan hacia ningún objetivo en particular. Lo que descubrieron es que a medida que las tareas se vuelven más complejas y los modelos razonan durante más tiempo, sus fallos están cada vez más dominados por la incoherencia que por el desalineamiento sistemático.

Para medir esto, los investigadores utilizaron una herramienta estadística llamada descomposición sesgo-varianza. El sesgo representa errores consistentes y predecibles, mientras que la varianza captura errores aleatorios e inconsistentes. Definieron la incoherencia como la fracción del error total atribuible a la varianza. Un valor de cero significa que todos los errores son sistemáticos, el escenario clásico de desalineamiento. Un valor de uno significa que todos los errores son aleatorios, el escenario del “desastre total”. Pero esta métrica es independiente del rendimiento general ya que un modelo puede mejorar su precisión mientras se vuelve más o menos coherente.
El equipo evaluó los modelos de razonamiento más avanzados disponibles durante el verano de 2025, incluyendo Claude Sonnet 4, o3-mini, o4-mini y Qwen3, a través de diversos tipos de tareas. Probaron desde preguntas de opción múltiple en benchmarks académicos hasta programación autónoma y evaluaciones de seguridad. También entrenaron sus propios modelos pequeños en tareas sintéticas de optimización para tener un mayor control experimental.
El primer hallazgo fue que cuanto más tiempo pasan los modelos razonando, más incoherentes se vuelven. Este patrón se mantuvo consistente en todas las tareas y modelos evaluados, ya sea que midieran el número de tokens de razonamiento, las acciones del agente o los pasos de optimización. Es decir, los modelos se vuelven menos predecibles cuanto más “piensan“. Esta tendencia sugiere que el razonamiento extendido, lejos de garantizar decisiones más coherentes, puede amplificar la variabilidad en los resultados.
El segundo descubrimiento mostró una relación compleja entre el tamaño del modelo y la coherencia. En tareas sencillas, los modelos más grandes tienden a ser más coherentes. Sin embargo, en tareas difíciles, los modelos más grandes se vuelven más incoherentes o permanecen igual de incoherentes que los pequeños. Las implicaciones de esto es que hacer los modelos más grandes no eliminará automáticamente la incoherencia. A medida que sistemas más capaces abordan problemas más complejos, los fallos dominados por la varianza persisten o incluso empeoran.
Los investigadores también encontraron que cuando los modelos razonan espontáneamente durante más tiempo de lo habitual en un problema particular, la incoherencia se dispara dramáticamente. La variación natural en el comportamiento del modelo domina sobre los intentos de controlarlo externamente.
Para entender por qué deberíamos esperar este comportamiento, el artículo propone un marco conceptual crucial que sugiere que los modelos de lenguaje grandes son sistemas dinámicos, no optimizadores. Cuando un modelo genera texto o toma acciones, traza trayectorias a través de un espacio de estados de alta dimensionalidad. Tiene que ser entrenado para actuar como un optimizador, y entrenado por separado para alinearse con las intenciones humanas. No está claro cuál de estas propiedades será más robusta a medida que escalamos los sistemas.
Restringir un sistema dinámico genérico para que actúe como un optimizador coherente es extremadamente difícil. A menudo, el número de restricciones necesarias para garantizar un progreso monótono hacia un objetivo crece exponencialmente con la dimensionalidad del espacio de estados.
Para probar esta idea directamente, diseñaron un experimento controlado entrenando transformers para emular explícitamente un algoritmo de optimización. Generaron datos de entrenamiento a partir de descenso de gradiente en una función de pérdida cuadrática, y luego entrenaron modelos de diferentes tamaños para predecir el siguiente paso de optimización dado el estado actual. Los resultados fueron que incluso en este entorno idealizado, la incoherencia crece con la longitud de la trayectoria. Más importante aún, descubrieron que los modelos más grandes aprenden el objetivo correcto más rápidamente de lo que aprenden a perseguirlo de manera confiable. La brecha entre “saber qué hacer” y “hacerlo consistentemente” crece con la escala.
Las implicaciones para la seguridad de la IA son significativas. Los resultados sugieren que los fallos futuros de la IA podrían parecerse más a accidentes industriales que a la búsqueda coherente de objetivos no deseados. Imagina una IA que pretende operar una central nuclear pero se distrae leyendo poesía francesa y provoca un colapso. La varianza domina en tareas complejas cuando los modelos frontera fallan en problemas difíciles que requieren razonamiento extendido.
El estudio plantea preguntas fundamentales sobre cómo debemos pensar acerca del desarrollo futuro de la IA. Si la coherencia no mejora automáticamente con la inteligencia, necesitamos repensar nuestras prioridades en la investigación de alineamiento. La pregunta clave deja de ser solo “¿cómo evitamos que la IA persiga los objetivos equivocados?” para incluir también “¿cómo evitamos que la IA sea fundamentalmente impredecible e incoherente cuando aborda los problemas más difíciles?”. Ambos tipos de fallo pueden ser peligrosos, pero requieren soluciones diferentes.
Los investigadores plantean que si el principal problema es la incoherencia en lugar del desalineamiento sistemático, entonces las prioridades de investigación en seguridad de IA deben cambiar. En lugar de enfocarse principalmente en restringir y alinear a un optimizador perfecto que podría perseguir los objetivos equivocados, sugieren dedicar más esfuerzo a prevenir el “reward hacking” y la mala especificación de objetivos durante el entrenamiento inicial, es decir, asegurarse desde el principio de que los modelos aprendan realmente los objetivos correctos y no versiones distorsionadas de ellos. También mencionan que agregar múltiples muestras del modelo y combinar sus respuestas (lo que llaman “ensembling”) puede reducir la varianza y mejorar la coherencia, aunque reconocen que esto es poco práctico para tareas del mundo real donde las acciones son irreversibles. Proponen tratar los fallos de IA más como prevendríamos accidentes industriales causados por sistemas impredecibles, en lugar de como contendríamos a un agente superinteligente con objetivos adversarios, aunque advierten que la impredecibilidad sigue siendo peligrosa y requiere estrategias de mitigación adaptadas a este tipo diferente de riesgo.
Comprender mejor cómo y por qué fallan estos sistemas es precisamente lo que permitirá desarrollar IA más segura y confiable. Estos hallazgos son una guía valiosa para construirla de manera más responsable, del mismo modo que entender los accidentes industriales del pasado nos ha permitido diseñar fábricas, aviones y centrales eléctricas cada vez más seguros que han mejorado enormemente nuestras vidas.
Es importante entender que este estudio proporciona información valiosa para que las empresas puedan integrar IA de forma de manera más inteligente y efectiva. Los hallazgos muestran que los sistemas actuales son más propensos a cometer errores impredecibles en tareas muy complejas y novedosas, pero funcionan de manera consistente y fiable en tareas bien definidas y dentro de su rango de entrenamiento, que es precisamente donde la mayoría de las aplicaciones empresariales se sitúan. La clave está en desplegar IA de forma estratégica, automatizando procesos repetitivos, asistiendo en la toma de decisiones en lugar de reemplazarla completamente, y manteniendo supervisión humana en tareas críticas o muy complejas. Del mismo modo que no evitamos usar electricidad porque sabemos que puede causar cortocircuitos si se usa mal, sino que instalamos sistemas de seguridad adecuados, este conocimiento sobre cómo falla la IA nos permite diseñar mejores protocolos de implementación, establecer los controles apropiados y maximizar los enormes beneficios que ya están transformando industrias enteras.
En 1MillionBot implementamos proyectos de IA de forma fiable y segura Contáctanos