Jerry Tworek, ex-VP de Investigación en OpenAI y líder del desarrollo de modelos como o1, o3 y Codex, ha concedio una entrevista a Unsupervised Learning, un podcast producido por Redpoint Ventures, firma de capital de riesgo (venture capital) de Silicon Valley conocida por invertir en gigantes tecnológicos como Netflix, Snowflake y Stripe. En la entrevista Tworek cuenta entre otras cosas que el éxito viral de ChatGPT fue inesperado y obligó a OpenAI a reinventarse apostando por modelos de razonamiento sin un claro encaje inicial de mercado, mientras reconoce que la empresa perdió liderazgo en programación frente a Anthropic por falta de enfoque al intentar abarcar demasiados productos simultáneamente.
Tworek también argumenta que los modelos actuales, aunque excelentes en tareas específicas, fallan en generalización y que una verdadera AGI requiere aprendizaje continuo y capacidad de autocorrección, no simplemente modelos estáticos. Predice un “momento ChatGPT” para la robótica en 2-3 años y un futuro donde los humanos gestionarán agentes de IA en lugar de programar manualmente, mientras advierte sobre una distopía de entretenimiento donde la realidad virtual y la IA sean tan atractivas que los humanos pierdan interés en el mundo real- una preocupación que, junto a su deseo de explorar problemas fundamentales fuera de la explotación comercial, motivó su salida de OpenAI.
Según Tworek la estructura de los grandes laboratorios tiene limitaciones y explica que la competencia actual genera una especie de “dilema del prisionero”, donde los laboratorios se ven obligados a optimizar y explotar lo que ya funciona para no perder cuota de mercado. Esto dificulta la “exploración” de ideas radicalmente nuevas que podrían ser 10 o 100 veces mejores pero que implican un riesgo de pérdida de enfoque en los productos actuales. Su objetivo actual según cuenta es encontrar ese “eslabón perdido” en el entrenamiento de modelos que actualmente falta en la industria y hacerlo realidad.
Evolución de la inteligencia artificial desde una perspectiva técnica y estratégica según Tworek
En la entrevista Tworek, aborda la evolución de la inteligencia artificial desde una perspectiva técnica y estratégica, destacando los siguientes temas principales:
• Límites del escalamiento y generalización: Jerry explica que los beneficios de escalar el pre-entrenamiento y el aprendizaje por refuerzo (RL) son reales y predecibles: el pre-entrenamiento mejora el conocimiento del mundo y el RL perfecciona habilidades específicas. Sin embargo, el gran interrogante es la generalización, ya que los modelos actuales suelen fallar en tareas o conocimientos que no están presentes en su corpus de entrenamiento.
• La necesidad del aprendizaje continuo para la AGI: Tworek sostiene que un modelo estático nunca podrá ser una AGI. Para él, la verdadera inteligencia requiere un mecanismo para actualizar creencias y conocimientos internos basándose en el fracaso, permitiendo que el modelo se “desatasque” por sí solo ante un problema, algo que los modelos actuales no pueden hacer. Además, señala que el proceso de entrenamiento actual es frágil, a diferencia del aprendizaje humano, que es “antifragil” y robusto.
• Evolución y desafíos estratégicos de OpenAI: Jerry describe la transformación de OpenAI de un pequeño laboratorio de 30 personas a una de las empresas más exitosas, destacando que el impacto masivo de ChatGPT no fue esperado internamente. Identifica como un riesgo crítico la pérdida de enfoque al intentar realizar demasiadas tareas difíciles a la vez (productos de consumo, investigación básica, robótica, etc.), lo que ya provocó que OpenAI perdiera su liderazgo inicial en el área de programación frente a competidores más enfocados como Anthropic.
• El futuro de la programación y el trabajo: Tworek predice que en el futuro los humanos no escribirán código manualmente, sino que operarán en niveles de abstracción mucho más altos. El rol del programador evolucionará hacia el de un gestor de agentes de IA, donde la habilidad más importante será el pensamiento crítico y la capacidad de supervisar sistemas complejos.
• Cronogramas y riesgos sociales: Estima un “momento ChatGPT” para la robótica en unos 2 o 3 años, mientras que la biología tomará más tiempo debido a la precisión necesaria. Respecto a los riesgos, se muestra menos preocupado por la extinción humana y más por un futuro distópico donde el entretenimiento virtual sea tan atractivo que los humanos pierdan interés en el mundo real.
Nuevos paradigmas de investigación
Tworek está centrando su nueva etapa de investigación en superar las limitaciones de los modelos actuales, enfocándose en los siguientes paradigmas:
Aprendizaje continuo (Continual Learning): Sostiene firmemente que un modelo estático nunca podrá ser una AGI. Su investigación se dirige a crear sistemas que no necesiten supervisión constante, sino que tengan la capacidad de actualizar sus propias creencias y conocimientos internos basándose en el fracaso, permitiendo que la IA se “desatasque” por sí misma cuando encuentra un problema difícil.
Robustez y antifragilidad en el entrenamiento: El investigador señala que el entrenamiento de modelos de aprendizaje profundo actual es un proceso fundamentalmente frágil que tiende a colapsar o generar “galimatías” si no se mantiene bajo controles estrictos. Busca desarrollar métodos de entrenamiento que sean robustos y “antifrágiles”, inspirándose en el aprendizaje humano, el cual no se desmorona al recibir información nueva o inesperada.
Generalización superior con menos datos: explora si existen formas de obtener mejores resultados con menos datos o métodos que permitan a los modelos generalizar de forma más fundamental a partir de lo que ya han aprendido. Cuestiona si hay arquitecturas o modelos distintos a los transformadores actuales que puedan ofrecer una capacidad de generalización mucho mayor.
Investigación a escala en caminos no explorados: Su visión sugiere que el aprendizaje continuo no ha sido resuelto porque requiere una escala de cómputo masiva que pocos laboratorios poseen, y los que la tienen han estado ocupados optimizando los paradigmas actuales (explotación) en lugar de explorar direcciones radicalmente nuevas.
Un nuevo cambio de paradigma “tectónico”: Tras haber liderado la introducción de los modelos de razonamiento (como o1), Tworek pretende identificar el “eslabón perdido” en cómo el mundo entrena modelos hoy en día para convertirlo en la nueva tendencia dominante. Aunque menciona que sus planes específicos están en una etapa temprana, su objetivo es recuperar la capacidad de realizar investigación de alto riesgo y alta recompensa que pueda superar a los modelos actuales en todos los dominios simultáneamente mediante una mejor generalización.
Puedes ver la entrevista completa en el siguiente video: