Google reveló Gemini Omni el martes en su conferencia anual de desarrolladores I/O, posicionando el nuevo servicio como el siguiente salto en los medios sintéticos. La inteligencia artificial multimodal puede ingerir virtualmente cualquier combinación de texto, imágenes o clips de video y producir videos realistas de alta fidelidad. Impulsado por la arquitectura de modelado Gemini, Omni trata cada entrada como parte de un modelo de mundo unificado, lo que permite al sistema mantener una lógica visual y física coherente en todo el metraje generado.

Al lanzar, los usuarios crearán videos utilizando textos, imágenes o metraje de video existente. Las funciones de imagen a video y texto a video están disponibles ahora; una actualización futura agregará capacidades de generación de texto puro. La herramienta también se utiliza como editor. Después de generar un clip, los creadores pueden alimentar el resultado de regreso a Omni, emitir una nueva orden y hacer que el sistema reemplace o modifique elementos específicos — cambiando un fondo, intercambiando el atuendo de un sujeto o incluso insertando un avatar personalizado que imita la voz y la apariencia del usuario.

Google ha incorporado salvaguardas en el flujo de trabajo. Cada salida de Omni lleva una marca de agua SynthID que identifica el contenido como generado por inteligencia artificial, una medida destinada a frenar la difusión de medios engañosos. La empresa dice que la marca de agua se aplica automáticamente y no puede ser eliminada por el usuario.

El acceso a Gemini Omni se implementará en varios productos de Google. Los suscriptores pagos ya pueden experimentar con la herramienta dentro de la aplicación Gemini rediseñada, donde los modelos pueden agregarse a una biblioteca de cámaras con un solo toque. La misma funcionalidad aparecerá en Google Flow y en YouTube Shorts más tarde esta semana. Los desarrolladores y clientes empresariales recibirán acceso a API en las próximas semanas, abriendo la puerta a integraciones personalizadas y un uso comercial más amplio.

Omni se ofrece en dos niveles. La versión Flash inicial, que está disponible actualmente, ofrece generación rápida para usuarios cotidianos. Google promete una variante Pro más potente en el futuro, aunque no ha revelado un cronograma. Al combinar la entrada multimodal, la simulación de física avanzada y la edición integrada, Gemini Omni busca establecer un nuevo estándar para la creación de video impulsada por inteligencia artificial mientras navega los desafíos éticos que acompañan a los medios sintéticos realistas.

Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.

Google Presenta Gemini Omni, Herramienta de Inteligencia Artificial Multimodal para la Creación de Videos Realistas

Key Points

También disponible en: