Tradicionalmente, un robot necesita un sistema para ver, otro para procesar lo que ve y otro distinto para decidir cómo moverse. NVIDIA Cosmos Policy propone un cerebro unificado que permite a las máquinas predecir el futuro.

¿Qué es exactamente Cosmos Policy?

Presentado por el equipo de investigación de NVIDIA, Cosmos Policy es una nueva arquitectura de control para robots basada en lo que los científicos llaman “Modelos Fundacionales del Mundo” (WFMs).

En lugar de ser un simple conjunto de instrucciones de “si pasa A, haz B”, este sistema es capaz de entender la física y el entorno. Es una evolución del modelo Cosmos Predict, que básicamente permite a la IA generar vídeos realistas de lo que podría pasar a continuación. Cosmos Policy toma esa capacidad de “imaginar el futuro” y la convierte en acciones físicas concretas.

Las tres claves de esta revolución

  1. Un cerebro, todas las funciones: Cosmos Policy es un modelo único que recibe imágenes y, directamente, produce los movimientos necesarios para completar una tarea.
  2. Planificación basada en la imaginación: Lo que hace especial a este sistema es que puede proyectar múltiples escenarios futuros. El robot “piensa”: “Si muevo este brazo así, la caja se caerá; si lo muevo de esta otra forma, la agarraré con seguridad”. Al simular estas trayectorias en milisegundos, el robot elige siempre la opción con más probabilidades de éxito.
  3. IA Física (Physical AI): Estamos hablando de una IA que entiende la gravedad, el roce de los materiales y el espacio tridimensional. Esto es vital para que los robots salgan de las fábricas controladas y puedan trabajar en entornos impredecibles, como hospitales o nuestros propios hogares.

Hasta ahora, entrenar a un robot para una tarea nueva (como doblar la ropa o recoger una mesa) requería miles de horas de programación o de ejemplos manuales. Con Cosmos Policy, el proceso se acelera drásticamente porque el modelo ya tiene una base de “sentido común físico”.

Esto abre la puerta a una nueva generación de robots autónomos que no solo siguen órdenes, sino que comprenden su entorno. Imagina vehículos autónomos que reaccionan mejor ante imprevistos o brazos robóticos industriales que se adaptan a piezas de diferentes formas sin necesidad de ser reprogramados.

NVIDIA ha puesto estas herramientas a disposición de la comunidad investigadora

Tienes más información en: https://research.nvidia.com/labs/dir/cosmos-policy/ y en

@article{kim2025cosmospolicy,
  title={Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning},
  author={Kim, Moo Jin and Gao, Yihuai and Lin, Tsung-Yi and Lin, Yen-Chen and Ge, Yunhao and Lam, Grace and Liang, Percy and Song, Shuran and Liu, Ming-Yu and Finn, Chelsea and Gu, Jinwei},
  journal={arXiv preprint arXiv:2601.16163},
  year={2025},
  url={https://arxiv.org/abs/2601.16163}
}