Apple muestra su último sistema de IA GAUDI. Puede generar escenas interiores en 3D y es la base para una nueva generación de IA generativa basada en NeRF. El equipo de inteligencia artificial de Apple presenta GAUDI, una arquitectura neuronal para la generación de escenas 3D inmersivas . El sistema de IA puede crear escenas en 3D basadas en indicaciones de texto. Un modelo de IA que genera escenas 3D desde cualquier ángulo

Nombrado en honor al famoso arquitecto español conocido por sus diseños caprichosos, Antoni Gaudí, el modelo de inteligencia artificial de Apple utiliza un decodificador de pose de cámara que le permite predecir las posibles posiciones de cámara de una escena. Luego, el decodificador permite que el modelo prediga el lienzo 3D desde prácticamente cualquier ángulo.

Al escribir ‘avanzar más por el pasillo’ y el modelo cambiará la posición de la escena.

Si bien Google, por ejemplo, se dedica a generar objetos individuales con Dream Fields, extender las IA generativas a escenas 3D totalmente ilimitadas sigue siendo un problema aún sin resolver. .Una de las razones de esto es la limitación de las posibles posiciones de la cámara: mientras que para un solo objeto, todas las posiciones razonables posibles de la cámara se pueden asignar a un domo, en las escenas 3D estas posiciones de la cámara están limitadas por obstáculos como objetos y paredes. Si no se tienen en cuenta durante la generación de la escena, la escena 3D generada no se puede utilizar.

Apple también demuestra que GAUDI puede generar nuevos movimientos de cámara a través de escenas interiores en 3D. La generación puede ser aleatoria, comenzar a partir de una imagen o controlarse mediante la entrada de texto con un codificador de texto, por ejemplo, “ir por el pasillo” o “subir las escaleras”.

La calidad del video generado por GAUDI aún es baja y está llena de artefactos. Pero con su sistema de IA, Apple está sentando otra base para los sistemas de IA generativos que pueden representar objetos y escenas en 3D. Una posible aplicación: generar ubicaciones digitales para los auriculares XR de Apple .

El lanzamiento de GAUDI se produce después de que los investigadores de la empresa tecnológica china Tencent publicaran un modelo que puede restaurar imágenes dañadas y de baja resolución.

Los NeRF podrían convertirse en la próxima etapa de la inteligencia artificial generativa y modelos de Google y Nvidia

Los sistemas de IA como DALL-E 2 de OpenAI o Imagen y Parti de Google muestran el potencial de la IA generativa controlable, pero solo para imágenes y gráficos 2D. GauGAN2 , desarrollado por Nvidia. GauGAN2 puede generar imágenes usando texto, los usuarios pueden escribir frases como ‘invierno’ y el modelo puede producir imágenes que coincidan con los descriptores deseados.

Más información:

https://arxiv.org/pdf/2207.13751.pdf