Google lanzó Gemini Omni Flash el martes en su conferencia de desarrolladores I/O, posicionando el nuevo servicio como un cambio de juego para cualquier persona que desee producir contenido de video sin dominar herramientas de edición complejas. El sistema de inteligencia artificial acepta texto, imágenes, audio o metraje existente como puntos de partida y luego genera un video pulido que se puede ajustar a través de instrucciones conversacionales simples. Los usuarios pueden pedirle al modelo que cambie una escena, ajuste la iluminación o cambie el atuendo de un personaje, todo mientras el sistema mantiene la continuidad y el movimiento realista.
Gemini Omni Flash es el primer lanzamiento público de la plataforma Gemini Omni, que combina el poder de razonamiento del modelo de lenguaje grande de Google Gemini con capacidades de generación de medios avanzadas. El lanzamiento se produce a través de varios productos de Google: la aplicación Gemini, el recién anunciado Google Flow, YouTube Shorts y el estudio YouTube Create. Los desarrolladores y los clientes empresariales recibirán un acceso más amplio más tarde este año.
Los ingenieros de Google enfatizaron que la ventaja principal de la herramienta es su facilidad de uso. En lugar de arrastrar clips a una línea de tiempo, los usuarios hablan o escriben instrucciones como "Hacer que el amanecer sea más brillante" o "Reemplazar el coche con un modelo vintage". El modelo interpreta la solicitud, actualiza el video y preserva la consistencia visual para que los personajes sigan siendo reconocibles y el movimiento siga siendo coherente en las ediciones. El sistema también simula dinámicas físicas como la gravedad y el movimiento de fluidos, lo que permite que efectos como un espejo ondulado o una escultura de burbujas parezcan naturales.
Para abordar las crecientes preocupaciones sobre los medios sintéticos, Google integró la marca de agua SynthID en cada salida de Gemini Omni. La etiqueta invisible identifica los videos generados por inteligencia artificial y puede ser leída por herramientas de verificación en Chrome, Search y otros servicios de Google. La empresa dijo que la marca de agua ayudará a los creadores y a los consumidores a distinguir entre contenido auténtico y material fabricado por inteligencia artificial.
Los usuarios iniciales pueden crear avatares de video que se parezcan a ellos, completos con una voz coincidente. Las funciones de modificación de voz más avanzadas siguen en pruebas mientras Google evalúa las salvaguardas de seguridad. La empresa enfatizó un lanzamiento cauteloso, señalando que aunque la tecnología desbloquea posibilidades creativas poderosas, debe estar acompañada de mecanismos de confianza robustos.
Los analistas de la industria ven a Gemini Omni Flash como la respuesta de Google a un mercado en rápida evolución para herramientas de medios impulsadas por inteligencia artificial. Los competidores como OpenAI y Adobe han introducido generadores de video similares, pero el enfoque de Google en una experiencia de edición conversacional lo distingue. Si la herramienta resulta lo suficientemente intuitiva para los creadores no técnicos, podría acelerar la adopción mainstream de la generación de video de inteligencia artificial.
Mirando hacia el futuro, Google insinuó que las actualizaciones futuras de Gemini Omni permitirán a los usuarios combinar fotos, música, instrucciones de texto y metraje de referencia en proyectos cohesivos individuales. Al expandirse más allá del video, la plataforma busca convertirse en un asistente creativo universal para una variedad de formatos de medios.
This article was written with the assistance of AI.
News Factory SEO helps you automate news content for your site.