La IA y las matemáticas. Cuando la máquina aprende a conjeturar

Fuentes: Georgiev, Gómez-Serrano, Tao & Wagner (arXiv:2511.02864) · Henkel (arXiv:2508.20236) · Open Proof Corpus (arXiv:2506.21621)

Hay una frase que Terence Tao (medallista Fields y uno de los matemáticos vivos más brillantes) repite cada vez que habla de inteligencia artificial y es que el cuello de botella de la ciencia ya no está donde siempre estuvo. Durante siglos, el problema era tener ideas. Hoy, gracias a la IA, generar hipótesis cuesta casi cero. El problema es saber cuáles de esas hipótesis valen algo.

Ese desplazamiento -de la generación a la verificación- no es un detalle técnico. Es un cambio de paradigma que está redibujando cómo se hace ciencia, qué habilidades importan y qué tipo de matemático necesita el siglo XXI. Este artículo recorre ese cambio en tres movimientos: lo que la IA ya es capaz de hacer, dónde sigue fallando, y qué significa todo esto para quienes trabajamos con ideas.

Kepler era un modelo de lenguaje

Para entender lo que está pasando, Tao propone una analogía histórica que vale la pena tomarse en serio.

En el siglo XVII, el astrónomo Tycho Brahe pasó décadas recopilando observaciones planetarias con una precisión diez veces superior a cualquier registro previo. Era el mayor banco de datos verificables que existía. Cuando Johannes Kepler heredó ese material, no procedió como un científico clásico -proponer una hipótesis y buscar datos que la confirmen-. Hizo lo contrario: dejó que los datos le dijeran la forma de las órbitas.

El proceso fue desordenado y prolífico. Kepler probó los sólidos platónicos de Pitágoras, las armonías musicales de las esferas, geometrías cada vez más complejas. Cometió errores que nunca publicó. Probó cientos de ideas que no funcionaron antes de encontrar una que encajaba: las órbitas son elipses. Tao describe este método como el de un “LLM de alta temperatura”. Una máquina de generar variantes a gran escala, donde la mayoría son basura y una, ocasionalmente, es un descubrimiento.

Lo que Kepler no pudo hacer fue explicar por qué las órbitas son elipses. Eso le tomó un siglo a Newton. Kepler encontró el patrón; Newton construyó la teoría. La regularidad empírica llegó primero; la comprensión profunda, después.

Los modelos de IA actuales son, en este sentido, keplerinos. Son extraordinariamente buenos encontrando patrones en espacios de búsqueda enormes -correlaciones en teoría de nudos, regularidades en series numéricas, construcciones geométricas óptimas- pero no tienen acceso a la teoría profunda que explica por qué esos patrones existen. Esa sigue siendo tarea humana.

La diferencia respecto a Kepler es de escala: donde él probaba cientos de ideas en años, los sistemas actuales prueban millones en horas. Y eso cambia todo.

Lo que la IA ya está haciendo, y lo que todavía no puede

El matemático que no duerme

En 2025, un sistema llamado AlphaEvolve (desarrollado por Google DeepMind y construido sobre modelos Gemini) demostró que esta capacidad kepleriana tiene consecuencias concretas. Su funcionamiento es sencillo en principio, un investigador define el problema y los parámetros, el sistema genera miles de variantes algorítmicas, las evalúa automáticamente, selecciona las mejores y las refina en bucles iterativos. Una y otra vez, hasta que algo nuevo emerge.

AlphaEvolve encontró un algoritmo para multiplicar matrices de 4×4 usando solo 48 multiplicaciones escalares, uno menos que el algoritmo de Strassen, que llevaba siendo el mejor desde 1969. Cincuenta y seis años sin avance, resueltos por un agente que no sabe lo que es una matriz, pero sabe explorar un espacio de búsqueda mejor que nadie.

En un estudio más amplio sobre 67 problemas de análisis, combinatoria, geometría y teoría de números, AlphaEvolve redescubrió las mejores soluciones conocidas en aproximadamente el 75% de los casos y encontró soluciones mejoradas en varios de ellos. También avanzó en el “Problema del solapamiento mínimo” de Erdős y en el problema del número de contacto en 11 dimensiones, dos preguntas que llevaban décadas abiertas no porque fueran imposibles, sino porque ningún humano había tenido tiempo de sentarse a explorarlas con suficiente paciencia.

Muchos problemas no estaban sin resolver por ser difíciles. Estaban sin resolver porque los matemáticos tienen un sesgo de prestigio. Nos atraen los grandes problemas los que tienen nombre propio y prometen fama e ignoramos miles de preguntas de dificultad media que nadie se ha molestado en atacar sistemáticamente. La IA no tiene ese sesgo. Recolecta el fruto maduro que dejamos en el árbol por falta de atención.

El medallista olímpico

Ese mismo año, un modelo de lenguaje alcanzó nivel de medalla de oro en la Olimpiada Internacional de Matemáticas. Gemini Deep Think resolvió cinco de los seis problemas de la IMO 2025, obteniendo 35 puntos sobre 42. Los jueces -matemáticos humanos que evaluaron las soluciones con los mismos criterios que aplican a los estudiantes- describieron las pruebas como “asombrosas en muchos aspectos”, claras, precisas y, en su mayoría, fáciles de seguir.

Esto no es un resultado de benchmarks artificiales. La IMO es la competición de matemáticas más exigente del mundo para estudiantes menores de 20 años. El año anterior, AlphaProof había alcanzado nivel de medalla de plata, pero con una restricción importante ya que necesitaba que humanos tradujeran los problemas a código formal antes de procesarlos. Gemini Deep Think trabajó directamente en lenguaje natural, bajo las mismas condiciones de tiempo que los estudiantes humanos.

En benchmarks de nivel de investigación doctoral como FrontierMath Tier 4, un conjunto de 50 problemas diseñados por matemáticos profesionales que pueden tomar semanas resolver, Gemini 2.5 Deep Think alcanzó un 10% de resolución. El número parece modesto hasta que se considera que hace un año ningún modelo pasaba del 2%.

La grieta en la armadura

En junio de 2025 se publicó el Open Proof Corpus (OPC), un conjunto de datos construido a partir de más de 5.000 pruebas matemáticas generadas por IA y evaluadas por expertos humanos. El OPC no se limita a verificar si la respuesta final es correcta; examina si el razonamiento que conduce a esa respuesta es lógicamente válido. La distinción parece obvia, pero sus implicaciones son perturbadoras.

De las 5.062 soluciones analizadas -generadas por seis modelos de última generación sobre 1.010 problemas de competiciones internacionales- solo el 43% contenía una prueba considerada correcta. Es decir, la mayoría de las veces que un modelo de IA “resuelve” un problema matemático, su justificación lógica es defectuosa, aunque la respuesta numérica sea la correcta.

Esta brecha entre intuición y rigor varía enormemente según el modelo. Gemini 2.5 Pro pierde apenas un 8% de precisión cuando se le exige no solo la respuesta sino la prueba válida. El modelo o3, en cambio, sufre una caída de casi el 30%. Puede llegar al destino correcto por un camino que no existe.

Hay además dos patrones de fallo que el OPC documenta con especial claridad. El primero es la sobregeneralización, los modelos tienden a validar un caso particular y asumir que la solución se aplica universalmente, sin construir el argumento general. El segundo es más perturbador aún: la renuencia a admitir ignorancia. De más de 1.700 soluciones incorrectas analizadas, solo en 109 casos un modelo reconoció explícitamente que no podía resolver el problema. En los demás, prefirió fabricar una prueba falsa antes que confesar su límite.

Esto técnicamente se conoce como falta de calibración de confianza, pero su significado práctico es más directo ya que no se puede confiar en que un modelo de IA avise cuando está equivocado. Esa responsabilidad recae, inevitablemente, sobre el humano.

El matemático que necesita el futuro

Todo esto conduce a una pregunta que Tao formula: ¿qué hace un matemático cuando la máquina puede generar miles de conjeturas al día?

La respuesta que propone Jonas Henkel en “The Mathematician’s Assistant” -el paper que sistematiza las ideas de Tao en un marco práctico- es la del matemático aumentado: un investigador que no compite con la IA sino que la dirige, la interroga y, sobre todo, la verifica.

El modelo tiene un nombre sencillo: copiloto, no piloto. La IA puede hacer búsquedas de literatura exhaustivas en minutos, generar docenas de borradores de prueba para explorar la viabilidad de un argumento, traducir conceptos entre disciplinas que raramente se hablan, proponer ejemplos y contraejemplos, refinar la notación de un artículo. Todo eso mientras el matemático humano mantiene el control sobre la dirección estratégica, el juicio crítico y -crucialmente- la verificación final.

Henkel enumera siete formas concretas en que esta colaboración puede estructurarse: ideación y generación de conjeturas, búsqueda y análisis de literatura, razonamiento matemático exploratorio, traducción interdisciplinar, redacción académica, interlocución como sparring partner para ideas no convencionales, y optimización algorítmica. En cada una de ellas, el principio es el mismo: la IA amplifica la capacidad humana, pero no la reemplaza; ningún resultado debe aceptarse sin revisión rigurosa.

Lo que este modelo exige, sin embargo, no es solo cautela técnica. Exige saber interrogar a la máquina y hacer las preguntas correctas. Elegir el modelo adecuado para cada tarea. Interpretar sus respuestas con escepticismo productivo. Detectar cuándo está confabulando con confianza.

Si un modelo de IA puede resolver cualquier examen de matemáticas de pregrado. El matemático del futuro no será el que mejor calcule. Será el que mejor sepa qué preguntar, qué verificar y qué construir con las respuestas.

Hay además un aviso que Tao añade y que conviene no pasar por alto. En un mundo donde todo tiende a la optimización -reuniones más cortas, búsquedas más directas, respuestas más eficientes- se erosiona algo que la ciencia necesita: la serendipia. Las conexiones más fértiles entre campos no relacionados no surgen de búsquedas dirigidas. Surgen de la distracción controlada, de la mente que divaga y encuentra algo que no estaba buscando. La “alta temperatura” -en el sentido de la aleatoriedad creativa- no es un defecto del proceso científico. Es su motor.

El riesgo no es que la IA nos quite el trabajo. Es que nos quite la capacidad de perdernos.

La verificación como nueva virtud científica

El cambio que describe Tao no es el fin de las matemáticas humanas ni el inicio de la superinteligencia. Es algo más concreto y, en cierto modo, más exigente: una redistribución de dónde reside el valor en el proceso científico.

Kepler necesitaba los datos de Brahe para verificar sus ideas locas. Nosotros necesitamos algo equivalente: estructuras robustas de validación para distinguir el descubrimiento real del ruido que la IA produce a escala industrial. El cuello de botella se ha desplazado. La virtud científica que más falta hace ya no es la creatividad —la IA la tiene en abundancia, aunque sea de naturaleza distinta a la humana—. Es el rigor. La paciencia de verificar. La honestidad de rechazar lo que no está bien justificado, aunque suene convincente.

En ese sentido, la irrupción de la IA no debería hacernos más cómodos. Debería hacernos más exigentes.

Fuentes: