Google utilizó su conferencia de desarrolladores I/O para presentar Gemini Omni, el siguiente paso en la búsqueda de la empresa por un modelo de lenguaje grande verdaderamente multimodal. La familia de modelos promete convertir cualquier combinación de texto, imágenes, audio y video en una salida coherente, comenzando con la creación de video.
Gemini Omni Flash, el primer modelo lanzado hoy, puede generar hasta diez segundos de video. Estará disponible a través de la aplicación móvil Gemini, YouTube Shorts y el Estudio de Flujos Creativos de IA, brindando a los consumidores una herramienta que se siente tan simple como escribir una solicitud. Google considera el límite como una decisión de producto, no una barrera técnica, y afirma que los clips más largos están en la hoja de ruta.
A diferencia de las ofertas anteriores que simplemente cosían las entradas, Omni "razona" a través de las modalidades, produciendo metraje que refleja una comprensión de la física, la cultura, la historia y la ciencia. En una demostración, el director de tecnología de DeepMind, Koray Kavukcuoglu, pidió al sistema una "explicación de animación de arcilla de plegamiento de proteínas" y recibió un video de stop-motion completo con voz en off que describe cadenas de aminoácidos, hélices alfa y hojas beta.
La directora de gestión de productos de Google DeepMind, Nicole Brichtova, posicionó a Gemini Omni como más que una actualización del modelo de video Veo de la empresa. La llamó "el siguiente paso hacia la progresión de combinar la inteligencia de Gemini con las capacidades de renderizado de nuestros modelos de medios". El sistema también permite a los usuarios editar fotos utilizando comandos de lenguaje plano, una característica reminiscente del prototipo Nano Banana de Google.
El CEO de Google, Sundar Pichai, destacó la ambición más amplia: mover la IA desde la predicción de texto a "simular la realidad". Observó que entrenar a Gemini en una mezcla de texto, código, audio, imágenes y video produce un modelo de mundo más profundo, lo que permite capacidades como generar imágenes desde audio o audio desde video.
Gemini Omni incluye salvaguardias contra el mal uso de los deepfakes. Los usuarios deben completar un proceso de incorporación de productos que registra su voz hablando una serie de números, creando un avatar digital verificado almacenado para su uso futuro. Cada video generado lleva la marca de agua digital SynthID de Google, lo que permite a los espectadores confirmar el origen de IA del contenido.
Más allá de las aplicaciones para consumidores, Google planea exponer Gemini Omni a través de API en las próximas semanas. Brichtova sugirió que los anunciantes, los cineastas y otros creadores podrían aprovechar el flujo de trabajo multimodal de extremo a extremo para campañas y producciones. Una variante de mayor rendimiento, Omni Pro, se promete para más tarde, aunque no se dio una fecha de lanzamiento.
El anuncio señala la confianza de Google en que una IA multimodal puede cerrar la brecha entre la investigación experimental y las herramientas cotidianas, posicionando a la empresa para competir directamente con rivales que han introducido recientemente características de generación de video.
Este artículo fue escrito con la asistencia de IA.
News Factory SEO te ayuda a automatizar contenido de noticias para tu sitio.