En las últimas semanas, el generador de imágenes DALL-E 2 AI ha causado sensación en Twitter. Google publicitó su propia versión llamada “Imagen” y combina un profundo nivel de comprensión del lenguaje con un “grado de fotorrealismo sin precedentes”.
Según el líder de IA de Google, Jeff Dean, los sistemas de IA como estos “pueden desbloquear la creatividad humana/computadora conjunta”, e Imagen es “una dirección [que la empresa] persigue”. El avance realizado por Google Research, Brain Team en su modelo de difusión de texto a imagen es el nivel de realismo. En general, DALL-E 2 es más realista con su producción, pero una mirada más profunda podría revelar las licencias artísticas realizadas.
Para probar este avance, Google creó un punto de referencia para evaluar modelos de texto a imagen llamado DrawBench. Los evaluadores humanos prefirieron “Imagen sobre otros modelos en comparaciones lado a lado, tanto en términos de calidad de muestra como de alineación de imagen y texto”. Se comparó con VQ-GAN+CLIP, modelos de difusión latente y DALL-E 2.
Mientras tanto, las métricas utilizadas para demostrar que Imagen es mejor para comprender las solicitudes de los usuarios incluyen relaciones espaciales, texto de formato largo, palabras raras y mensajes desafiantes. Otro avance realizado es en una nueva arquitectura Efficient U-Net que es “más eficiente en computación, más eficiente en memoria y converge más rápido”.
Google tiene una demostración interactiva en el sitio y el trabajo de investigación está disponible.
Más información: https://9to5google.com/2022/05/23/google-ai-imagen-generator/