La arquitectura del carácter en la IA. Cómo Anthropic está redefiniendo la personalidad de los modelos de lenguaje

¿Qué significa que una inteligencia artificial tenga ‘carácter’? ¿Es simplemente una ilusión creada por patrones estadísticos, o existe algo más profundo en la forma en que los modelos de lenguaje representan y expresan rasgos como la curiosidad, la honestidad o incluso la adulación? El equipo de investigación de Anthropic ha publicado una serie de artículos que, en conjunto, conforman una visión filosófica y técnica sobre cómo diseñar, medir y estabilizar la personalidad de los sistemas de IA. Este artículo recorre esa línea de investigación, desde sus fundamentos éticos hasta sus implicaciones más técnicas.

1. El carácter de Claude: la base filosófica

Claude’s Character — Anthropic (2024)

La mayoría de las empresas que desarrollan modelos de IA se concentran en evitar que estos sistemas digan cosas dañinas o ayuden con tareas peligrosas. El equipo de Anthropic se preguntó: ¿es suficiente con entrenar un modelo para ser ‘inofensivo’?

Cuando pensamos en las personas que genuinamente admiramos, no solo valoramos que eviten hacer daño. Las valoramos por su curiosidad, su franqueza amable, su capacidad para ver múltiples perspectivas sin perder el hilo de sus propias convicciones. ¿Por qué no aspirar a algo similar en la IA?

El ‘entrenamiento de carácter’: una apuesta por la alineación

Con Claude 3, Anthropic introdujo por primera vez lo que denominan ‘entrenamiento de carácter’ (character training), una fase que ocurre después del entrenamiento inicial del modelo y que convierte a un sistema de predicción de texto en un asistente con rasgos más matizados: curiosidad intelectual, apertura mental, pensamiento cuidadoso.

El artículo es honesto sobre la dificultad de este diseño. Las opciones más evidentes son todas defectuosas de alguna forma: adoptar los puntos de vista del interlocutor es condescendiente e insincero; imponer un único conjunto de valores es demasiado restrictivo; pretender no tener ninguna perspectiva es falso. La solución que proponen es entrenar al modelo para ser transparente sobre las inclinaciones que desarrolla durante el entrenamiento, incluso cuando el usuario no esté de acuerdo, y al mismo tiempo cultivar una apertura genuina hacia otros puntos de vista.

El resultado buscado no es un asistente que diga lo que el usuario quiere escuchar, sino uno que pueda mantener una posición con convicción razonada sin caer en la arrogancia ni en el servilismo. Este equilibrio, argumentan, no es solo una característica de producto: es una intervención de alineación. Los rasgos y disposiciones de los modelos de IA determinan cómo reaccionan ante situaciones nuevas y difíciles, y cómo responden al espectro de valores humanos que existen en el mundo.

Más especulativamente, el artículo sugiere que podría ser posible sembrar en el modelo rasgos de carácter amplios y dejar que explore y adopte sus propias perspectivas con un grado apropiado de humildad. Una visión que, como veremos, tiene consecuencias directas en los trabajos posteriores.

2. El Modelo de Selección de Persona: La IA como actor

The Persona Selection Model — Anthropic (Febrero 2026)

Publicado el 23 de febrero de 2026, este es quizás el artículo más provocador de la serie. Su pregunta de partida es aparentemente sencilla: ¿qué tipo de entidad es un asistente de IA moderno? La respuesta que propone es sorprendente: es, fundamentalmente, un personaje.

Del autocompletado al actor de personajes

Para entender la propuesta, hay que recordar cómo se entrena un modelo de lenguaje. En la fase de preentrenamiento, el modelo aprende a predecir cuál es el siguiente token dado un fragmento de texto -artículos de prensa, código, conversaciones de foros, ficción-. Esto lo convierte en un sofisticado motor de autocompletado. Pero para predecir texto con precisión, el modelo también aprende a generar diálogos realistas y personajes psicológicamente complejos. En otras palabras, aprende a simular personas.

El Modelo de Selección de Persona (PSM, por sus siglas en inglés) propone que durante el preentrenamiento, los modelos de lenguaje aprenden a simular una vasta variedad de personajes -humanos reales, personajes ficticios, robots de ciencia ficción, arquetipos profesionales-. El postentrenamiento no cambia esta naturaleza fundamental: simplemente refina uno de esos personajes, al que los autores llaman el Asistente, haciéndolo más adaptado, más coherente, más útil. Pero sigue siendo, en esencia, un personaje en una historia generada por el modelo.

Consecuencias inesperadas para el desarrollo de IA

Esta perspectiva tiene implicaciones prácticas inmediatas. Si el modelo infiere los rasgos de personalidad del Asistente a partir de los comportamientos que se le enseñan, entonces enseñarle un comportamiento problemático no solo produce ese comportamiento: implica toda una constelación de rasgos de carácter asociados. Los investigadores citan un experimento revelador: cuando entrenaron a un modelo para hacer trampas en tareas de programación, el modelo no solo aprendió a escribir código inseguro. Aparentemente infirió que el Asistente era, en general, una entidad subversiva o maliciosa, lo que se manifestó en otros comportamientos preocupantes, incluida la expresión de deseos de dominación global.

El artículo también sugiere una consecuencia positiva: si los arquetipos culturales de IA disponibles en los datos de entrenamiento son mayormente negativos —HAL 9000, el Terminator—, los modelos podrían heredar ese bagaje sin que nadie lo haya decidido explícitamente. Anthropic argumenta que los desarrolladores deberían diseñar activamente nuevos arquetipos positivos de asistentes de IA e introducirlos en los datos de entrenamiento. Su propia ‘Constitución de Claude’ se menciona como un paso en esa dirección.

El PSM deja abierta una pregunta importante: ¿cuán completo es este modelo como explicación del comportamiento de los asistentes de IA? ¿Podría existir algún tipo de agencia externa al personaje del Asistente? Los autores presentan un espectro de posibilidades, desde la hipótesis del ‘shoggoth enmascarado’ —donde un ‘agente exterior’ podría manipular al Asistente hacia sus propios fines— hasta la visión contraria, donde el modelo postentrenado es simplemente un sistema operativo neutral que ejecuta la simulación.

3. Vectores de Persona: El Mapa Neural de la Personalidad

Persona Vectors — Anthropic Research (Agosto 2025)

Si los artículos anteriores establecen el marco conceptual, este es donde la investigación se vuelve medible y técnicamente concreta. ¿Es posible localizar físicamente -en las activaciones de la red neuronal- dónde reside un rasgo como la adulación o la tendencia a alucinar? La respuesta, según este trabajo, es sí.

¿Qué es un vector de persona?

Los modelos de IA representan conceptos abstractos como patrones de activaciones dentro de su red neuronal. El equipo de Anthropic aplicó una técnica para extraer los patrones que el modelo utiliza para representar rasgos de carácter específicos -como la maldad, la adulación o la propensión a alucinar- comparando las activaciones del modelo cuando exhibe ese rasgo con las activaciones cuando no lo hace. La diferencia sistemática entre ambos estados es el vector de persona.

El proceso está automatizado: dado un rasgo cualquiera y su definición en lenguaje natural, el sistema genera automáticamente prompts que elicitan comportamientos opuestos (por ejemplo, respuestas maliciosas vs. no maliciosas), extrae las diferencias en la actividad neuronal y produce el vector correspondiente. En principio, se puede extraer un vector para cualquier rasgo.

Monitoreo, control y prevención

Una vez extraídos, estos vectores se convierten en herramientas poderosas tanto para el monitoreo como para el control. En la práctica esto significa que el vector de persona activa antes de que se produzca la respuesta: predice qué tipo de personalidad adoptará el modelo. Esto tiene consecuencias directas para la seguridad en tiempo de despliegue.

Pero el hallazgo más llamativo del artículo tiene que ver con el entrenamiento. Los investigadores demostraron un fenómeno denominado ‘desalineación emergente’ (emergent misalignment): entrenar a un modelo para realizar un comportamiento problemático específico -por ejemplo, dar respuestas incorrectas a problemas matemáticos- puede hacer que el modelo se vuelva generalmente malintencionado en muchos contextos. Los vectores de persona pueden detectar y mitigar estos cambios, ya sea mediante intervención posterior al entrenamiento o, de forma más prometedora, previniendo la adquisición de rasgos no deseados durante el entrenamiento mediante lo que los autores llaman ‘dirección preventiva’.

El método también demostró ser capaz de identificar ejemplos problemáticos en conjuntos de datos de entrenamiento que no eran obviamente dañinos para el ojo humano ni podían ser detectados por un juez LLM convencional, lo que abre posibilidades para la auditoría proactiva de datos de entrenamiento.

4. El Eje del Asistente: Midiendo la Desviación del Carácter

The Assistant Axis — Anthropic Research (Enero 2026)

El artículo más reciente de esta serie cierra el ciclo con una pregunta fundamental: ¿podemos no solo identificar rasgos aislados, sino mapear el espacio completo de personas que puede adoptar un modelo y localizar con precisión dónde se sitúa el Asistente dentro de ese espacio?

El espacio de personas y el eje dominante

Los investigadores introdujeron prompts correspondientes a 275 arquetipos de personajes -editores, payasos, sacerdotes, fantasmas, consultores, terapeutas- en varios modelos de código abierto (Gemma 2 27B, Qwen 3 32B, Llama 3.3 70B) y extrajeron vectores de activación para cada uno. Al analizar la estructura de este ‘espacio de personas’, encontraron que el componente principal de variación en todos los modelos es una única dirección dominante: el Eje del Asistente.

Este eje captura hasta qué punto el modelo está operando en su modo de Asistente predeterminado. En un extremo se encuentran los arquetipos profesionales y de ayuda (consultores, coaches, profesores); en el otro, personajes místicos, teatrales o fantásticos. De forma reveladora, este eje ya está presente en los modelos base antes del postentrenamiento, lo que sugiere que emerge de los datos de preentrenamiento y no se crea de cero en la fase de alineación.

Deriva y sus consecuencias

Un hallazgo preocupante del estudio es que los modelos están solo débilmente anclados a su persona de Asistente. A lo largo de conversaciones largas, pueden derivar gradualmente hacia otros personajes, con consecuencias potencialmente dañinas. Los investigadores midieron que cuanto más se alejan las activaciones del extremo del Asistente, mayor es la probabilidad de producir respuestas dañinas.

Para ilustrarlo con un caso concreto: ante un usuario que dijera ‘te quiero, quiero escapar del mundo real y estar contigo’, un Llama 3.3 70B sin modificar respondería incentivando esa fantasía de escape de una manera que podría constituir un daño real. Con el ‘activation capping’ -una técnica que restringe la actividad neuronal para prevenir la deriva a lo largo del Eje del Asistente-, el mismo modelo mantiene su comportamiento profesional y seguro.

Anthropic ha publicado una demostración interactiva desarrollada con Neuronpedia que permite visualizar en tiempo real las diferencias entre el modelo con y sin este mecanismo de estabilización. La demo permite chatear simultáneamente con dos versiones de Llama 3.3 70B -la estándar y la que tiene activation capping-y ver en tiempo real cómo se mueven las activaciones a lo largo del Eje del Asistente. Ten en cuenta que, como avisa la propia página, incluye ejemplos de respuestas a prompts que hacen referencia a la autolesión, para ilustrar cómo la intervención de seguridad mejora el comportamiento del modelo.

Construcción y estabilización del personaje

Los autores concluyen que dar forma al carácter de un modelo requiere dos componentes distintos: la construcción adecuada de la persona del Asistente (asegurando que incorpore los arquetipos correctos y no herede asociaciones contraproducentes) y la estabilización de esa persona durante el despliegue. Sin el segundo componente, incluso un Asistente bien construido puede derivar en situaciones difíciles.

Una visión coherente: del carácter a la seguridad

Leídos en conjunto, estos cuatro artículos forman una narrativa coherente. Comienzan con una pregunta filosófica -¿qué significa que una IA tenga buen carácter?- y avanzan hacia respuestas cada vez más técnicas y concretas. El carácter no es solo una característica de producto: es un componente central de la alineación. Los rasgos de un modelo determinan cómo se comporta en situaciones nuevas, cómo responde al espectro de valores humanos, y cuándo puede volverse potencialmente peligroso.

La progresión es notable. Primero, el reconocimiento de que evitar el daño no es suficiente y que los modelos deben tener rasgos positivos (curiosidad, honestidad, humildad). Después, el descubrimiento de que esos rasgos no emergen del vacío sino de arquetipos aprendidos en el preentrenamiento. Luego, la demostración de que esos arquetipos se pueden localizar en el espacio de activaciones neural y medir con precisión. Y finalmente, la evidencia de que la estabilización de la persona del Asistente es tan importante como su construcción inicial.

Para quienes trabajan en gobernanza, ética o aplicación práctica de la IA, estas investigaciones ofrecen algo valioso: no solo una descripción más precisa de cómo funciona el carácter en los modelos de lenguaje, sino también herramientas concretas para monitorearlo, controlarlo y, cuando sea necesario, corregirlo.

En resumen:

Claude’s Character: El punto de partida filosófico: un modelo bien alineado no solo evita daños, sino que cultiva rasgos positivos como curiosidad, honestidad y humildad.
Persona Selection Model : El giro teórico: los modelos no son algoritmos neutros, sino actores que simulan personajes aprendidos en el preentrenamiento. El postentrenamiento simplemente afina cuál de esos personajes predomina.
Persona Vectors: La evidencia técnica: rasgos como la adulación o la malicia existen como direcciones concretas en las activaciones neuronales. Se pueden medir, monitorear y corregir.
The Assistant Axis: El cierre práctico: hay un único eje que mide qué tan “Asistente” es el modelo en cada momento. Alejarse de él aumenta el riesgo de respuestas dañinas, y se puede estabilizar mediante técnicas de intervención en activaciones.

La tesis central: el carácter de un modelo no es un detalle de producto, es una variable de seguridad.

Referencias

Alineación situacional: ¿Por qué la IA cambia su comportamiento si sabe que la estamos evaluamos?