¿Qué puede pasar cuando un modelo de lenguaje avanzado como Claude intenta controlar un robot en el mundo real? Es la pregunta que Anthropic decidió responder en su proyecto Fetch y cuyos resultados han publicado en su blog. La premisa era aparentemente sencilla, hacer que un perro robot Unitree Go2 buscara y trajera una pelota de playa. Pero la cuestión principal no era si el robot podía hacerlo, sino cómo la ayuda de Claude transformaría la capacidad de personas sin experiencia en robótica que iban a ser las encargadas de programar al robot.

El experimento que llamaron “Project Fetch” se plante inicialmente para analizar ¿cómo podrían los modelos de IA afectar el mundo físico? Una de las vías más obvias es a través de robots y realizar el experimento con lo que se conoce como un “estudio de uplift”, una metodología que la compañía utiliza para medir la brecha de rendimiento entre equipos con y sin acceso a IA, permitiéndoles cuantificar cómo Claude puede elevar la capacidad humana en dominios de alto valor.

Anthropic reunió a ocho investigadores e ingenieros de la compañía, ninguno con experiencia previa significativa en robótica. Cuatro formaron el “Equipo Claude”, con acceso completo a Claude mientras los otros cuatro integraron el “Equipo sin Claude”, dependiendo únicamente de sus propias habilidades y la colaboración entre ellos.

El desafío se estructuró en tres fases de dificultad y todas giraban en torno a la tarea central que consistía en hacer que el perro robot recuperara una pelota de playa. La primera fase requería control manual del robot usando controladores. La segunda exigía programar sus propios controladores y establecer conexión con el hardware del robot. La tercera y más compleja era desarrollar capacidades autónomas para que el robot detectara, se acercara y moviera la pelota por sí mismo.

Todo esto debía completarse en un solo día de trabajo porque Anthropic buscaba evaluar cómo Claude podía acelerar el proceso de aprendizaje y desarrollo en condiciones realistas de trabajo.

En la primera fase de control manual, ambos grupos lograron completar la tarea, aunque el equipo con Claude terminó en aproximadamente siete minutos, tres minutos más rápido que el equipo sin IA.

En la segunda fase era necesario programar controladores propios, lo que requería no solo escribir código, sino comprender la arquitectura del hardware, identificar las bibliotecas de software correctas e instaladas, y establecer comunicación efectiva con el robot. El equipo con Claude completó esta fase en alrededor de dos horas y quince minutos. El equipo sin Claude, por el contrario, entró al descanso del almuerzo sin haber logrado siquiera establecer una conexión funcional con su robot, y finalmente necesito intervención directa de los organizadores del experimento para poder continuar.

Kevin Troy, uno de los investigadores de Anthropic destaco que donde Claude mostró mayor impacto fue en la tarea de conectarse al robot. La capacidad del modelo para identificar rápidamente hardware arbitrario, determinar cómo comunicarse con él y controlarlo representó una ventaja considerable. Al final del experimento, el equipo asistido por Claude había completado siete de ocho tareas asignadas, mientras que el equipo sin IA logró seis y el equipo con Claude completó las tareas en aproximadamente la mitad del tiempo que el equipo sin asistencia.

Anthropic también analizó transcripciones de audio del espacio de trabajo para evaluar la experiencia emocional de ambos equipos. El diálogo del equipo sin Claude mostró mayor negatividad y confusión. Las expresiones de incertidumbre fueron el doble de frecuentes en este grupo, que también formuló significativamente más preguntas entre sí.

Un miembro del equipo sin Claude a mostró su frustración diciendo que no era realmente consciente de “cuánto dependía de Claude para hacer el trabajo manual y encontrar todos los detalles minuciosos que prefería no tener que resolver por sí mismo”. Esta reflexión va en línea con investigaciones reciente sobre lo que se conoce como “delegación cognitiva”. Estudios que demuestran como el uso de IA puede aumentar el conocimiento percibido. Personas que usan internet o IA para responder preguntas y qué suelen mostrar lo que se han denominado juicios metacognitivos excesivamente confiados, atribuyendo erróneamente información externa a su memoria interna. Un estudio de 2021 determinó que cuando los participantes podían usar internet, creían haber aprendido más de lo que realmente habían aprendido, mientras fallaban en comprender riesgos como ser más susceptibles a información falsa o confiar inapropiadamente en sus propias habilidades.

Es lo que los investigadores llaman “metaconocimiento“. Los humanos no siempre pueden evaluar de forma correcta sus propias capacidades, lo que conlleva tomar malas decisiones sobre qué delegar y qué no. Estudios experimentales han demostrado que cuando la IA delega trabajo a humanos, los equipos humano-IA pueden superar a la IA trabajando sola. Sin embargo, cuando los humanos delegan a la IA sin discernimiento, no se benefician tanto. La clave está en desarrollar lo que algunos investigadores llaman “metacognición compartida” que consiste en una colaboración donde humanos y sistemas de IA reflexionan de forma conjunta, coordinan tareas y se retroalimentan mutuamente.

Esta dimensión psicológica del experimento realizado por Anthropic parece indicar que la ayuda de IA no solo acelera el trabajo técnico, sino que también reduce la carga cognitiva y emocional asociada con tareas complejas fuera del área de expertise inmediata de una persona.

Según el equipo de Anthropic, Project Fetch no fue un ejercicio perfecto y sus resultados fueron uniformemente favorables para el equipo con IA pero hubo áreas donde el equipo sin Claude demostró ventajas inesperadas. Una vez que lograron establecer un feed de video estable, el equipo sin asistencia desarrolló un programa de control y un método de localización más rápidamente que el equipo con IA. Sin embargo, el controlador asistido por Claude resultó mucho más fácil de usar.

Anthropic comenta que los resultados del experimento aunque académicamente interesantes, fueron prácticamente triviales y que aunque no fue una prueba diseñada para conocer la capacidad de Claude para realizar trabajo de robótica de principio a fin de manera autónoma, si que aunque representó un paso inicial importante hacia evaluaciones de ese tipo en el futuro.

El experimento mostró como Claude podía aumentar la capacidad humana en dominios potencialmente valiosos. Personas sin experiencia realizaron tareas complejas de robótica en tiempo limitado. Este umbral de capacidad está incluido en la Política de Escalamiento Responsable de Anthropic, centrada en determinar puntos de control que indican cuándo las capacidades de un modelo de IA han alcanzado un nivel en el que se requiere la implementación de salvaguardas adicionales, ya que estos umbrales críticos de capacidad podrían producir avances rápidos e impredecibles.

Como reconoce Anthropic, en el campo de la IA la potenciación humana con frecuencia precede a la autonomía es decir lo que los modelos pueden ayudar a los humanos a lograr hoy, pueden hacerlo solos mañana. Project Fetch fue así un paso inicial para hacer evaluaciones futuras sobre la capacidad de Claude de llevar a cabo trabajo de robótica de principio a fin, estableciendo una línea base antes de que los modelos alcancen capacidad autónoma completa.

Project Fetch de Anthropic está en línea con proyectos vinculados al desarrollo de la IA física capaz de interactuar con el mundo físico y en el que otras empresas como DeepMind están trabajando. Gemini Robotics 1.5 y Gemini Robotics-ER 1.5, son dos modelos diseñados específicamente para robótica. Gemini Robotics 1.5 es un modelo de visión-lenguaje-acción que convierte información visual e instrucciones en comandos motores para que robots realicen tareas. Este modelo “piensa antes de actuar” y muestra su proceso de razonamiento, ayudando a los robots a evaluar y completar tareas complejas de manera más transparente.

Gemini Robotics-ER 1.5, es un modelo de razonamiento “encarnado”, que tiene resultados probados en comprensión espacial del mundo físico, interactúa en lenguaje natural, estima su éxito y progreso, y puede llamar nativamente a herramientas como Google Search para buscar información o usar cualquier función definida por el usuario de terceros. DeepMind también ha desarrollado SIMA 2, un agente generalista para mundos virtuales 3D complejos impulsado por Gemini. SIMA 2 puede razonar sobre objetivos, explicar sus planes y mejorar a través de auto-juego en múltiples entornos diferentes. La capacidad de SIMA 2 para operar a través de diversos entornos de juego es un campo de pruebas crucial para inteligencia general, permitiendo que los agentes dominen habilidades, practiquen razonamiento complejo y aprendan continuamente a través de juego autodirigido.

DeepMind está colaborando con empresas líderes en robótica, incluyendo Agile Robots, Agility Robotics, Boston Dynamics y Enchanted Tools como “testers de confianza”, y trabaja en asociación con Apptronik para construir la próxima generación de robots humanoides con Gemini en su núcleo.

Project Fetch se engloba en una demostración “ingeniosa” de las capacidades de IA hacia un futuro donde la inteligencia artificial extiende su influencia más allá de las pantallas y el código, manifestándose en acciones físicas concretas en el mundo real. La transición de modelos que pueden ayudar a humanos a programar robots hacia modelos que podrían eventualmente “auto-encarnarse” físicamente es un salto conceptual significativo.

Fuentes: