Desde finales de marzo de 2025, Google ha ido desplegando progresivamente su más reciente modelo de inteligencia artificial, Gemini 2.5 Pro, considerado por la compañía como “su modelo más inteligente” hasta la fecha. La última actualización, lanzada el 6 de mayo bajo el nombre “Gemini 2.5 Pro Preview (I/O edition)”, destaca especialmente por sus capacidades mejoradas en programación y desarrollo web.

Un modelo diseñado para “pensar” antes de responder

Gemini 2.5 Pro representa una evolución significativa en la forma en que los modelos de IA generan respuestas. Google DeepMind ha desarrollado esta familia de modelos con la capacidad de “razonar” a través de sus pensamientos antes de responder, un enfoque que según la compañía resulta en “un rendimiento mejorado y mayor precisión“. Esta característica, conocida como “thinking models” (modelos de pensamiento), va más allá de las técnicas tradicionales como el aprendizaje por refuerzo y la generación de cadenas de pensamiento.

“En el campo de la IA, la capacidad de un sistema para ‘razonar’ se refiere a más que solo clasificación y predicción. Se refiere a su habilidad para analizar información, extraer conclusiones lógicas, incorporar contexto y matices, y tomar decisiones informadas”, explica Google en su blog oficial.

Imagen del blog oficial de Google

Liderazgo en benchmarks y evaluaciones

Según la documentación oficial de Google, Gemini 2.5 Pro encabeza la clasificación de LMArena -que mide las preferencias humanas- por un margen significativo. Esta métrica indica un modelo altamente capaz equipado con un estilo de alta calidad.

En el ámbito del desarrollo web, la versión actualizada del 6 de mayo lidera el WebDev Arena Leaderboard, superando a su versión anterior en 147 puntos Elo. Esta clasificación evalúa la capacidad del modelo para crear aplicaciones web estéticas y funcionales basadas en preferencias humanas.

También demuestra un rendimiento sobresaliente en comprensión de vídeo, obteniendo un 84,8% en el benchmark VideoMME, lo que lo sitúa a la par de modelos especializados en varias evaluaciones desafiantes.

Capacidades multimodales mejoradas

Una de las características más destacadas de Gemini 2.5 Pro es su capacidad para procesar simultáneamente diferentes tipos de datos:

Comprensión avanzada de vídeo

El modelo puede analizar hasta 6 horas de vídeo con una comprensión profunda que permite:

  • Identificar momentos específicos dentro de vídeos utilizando señales audiovisuales
  • Resolver problemas de razonamiento temporal como el conteo de eventos
  • Transformar vídeos en aplicaciones interactivas con un solo prompt

“Gemini 2.5 es la primera vez que un modelo nativamente multimodal puede usar información audiovisual a la perfección con código y otros formatos de datos”, destaca Google en su blog para desarrolladores.

Programación y desarrollo web

Gemini 2.5 Pro (I/O edition) destaca especialmente en la programación, siendo definido por Google como “su modelo más inteligente que es aún mejor en codificación”. Entre sus capacidades sobresalen:

  • Creación de aplicaciones web interactivas desde simples instrucciones
  • Transformación y edición de código
  • Desarrollo de flujos de trabajo agénticos complejos
  • Creación de animaciones dinámicas a partir de vídeos
  • Generación de aplicaciones completas a partir de un solo prompt

“Por defecto, el modelo tiene un gusto por el desarrollo web estético mientras mantiene su capacidad de dirección, ayudando a los desarrolladores a convertir rápidamente un concepto en una aplicación web funcional”, señala Google.

Disponibilidad y acceso

Gemini 2.5 Pro está disponible a través de:

  • Google AI Studio y la API de Gemini
  • La aplicación Gemini para usuarios con suscripción a Gemini Advanced
  • Vertex AI para clientes empresariales

Google ha extendido una versión experimental de Gemini 2.5 Pro de forma gratuita para todos los usuarios desde el 31 de marzo, aunque con límites de velocidad para la versión gratuita.

Aplicaciones creativas y funcionalidades destacadas

Además de sus capacidades técnicas, Gemini 2.5 Pro permite crear aplicaciones innovadoras y divertidas:

Vídeo a aplicación de aprendizaje

Una de las demostraciones más impresionantes es la conversión de vídeos educativos de YouTube en aplicaciones interactivas. El modelo analiza el contenido del vídeo y genera automáticamente una aplicación de aprendizaje que refuerza las ideas clave presentadas.

Generación de animaciones a partir de vídeos

Gemini 2.5 Pro puede crear animaciones dinámicas basadas en vídeos con un solo prompt. Por ejemplo, al analizar un vídeo sobre Project Astra, el modelo generó una animación en p5.js visualizando los puntos de referencia identificados en el mismo orden temporal que aparecían en el vídeo original.

Aplicaciones para estudiantes

Según muestran algunos usuarios en plataformas como YouTube, Gemini 2.5 Pro permite crear aplicaciones educativas interactivas que pueden hacer más entretenido el aprendizaje de materias como las matemáticas, permitiendo visualizar conceptos abstractos o generar ejercicios personalizados.

Canvas: creación visual de aplicaciones

La función Canvas en la aplicación Gemini, potenciada por Gemini 2.5 Pro, permite a usuarios sin experiencia en programación crear aplicaciones web interactivas con instrucciones en lenguaje natural. Esta característica facilita la visualización y modificación de datos en tiempo real sin necesidad de salir del entorno de la IA.

Perspectivas futuras

Google continúa avanzando en el desarrollo de sus modelos de IA, con la próxima conferencia Google I/O programada para los días 20 y 21 de mayo de 2025, donde se espera que la compañía presente más novedades en su ecosistema de inteligencia artificial.

El lanzamiento anticipado de Gemini 2.5 Pro (I/O edition) demuestra el compromiso de Google por llevar sus avances en IA a los desarrolladores lo antes posible, sentando las bases para una nueva generación de aplicaciones interactivas que combinen texto, imagen, audio y vídeo con código de una manera natural e integrada.