Google anunciou o Gemini Omni durante seu evento anual I/O, posicionando o modelo como o próximo salto além de seus geradores de vídeo Nano Banana e Veo 3.1. Diferentemente de seu predecessor, que limitava os usuários a prompts e imagens estáticas, o Gemini Omni aceita uma mistura de entradas - texto, imagens, áudio e até mesmo vídeo raw - e produz vídeos polidos baseados na extensa base de conhecimento da empresa.

O lançamento começa com o Gemini Omni Flash, que já está ao vivo para usuários do aplicativo Gemini, Google Flow e YouTube Shorts. Assinantes dos níveis AI Plus, Pro e Ultra do Google podem experimentar a ferramenta em todo o mundo, e o aplicativo Create do YouTube começará a oferecer a funcionalidade esta semana.

O que diferencia o Gemini Omni é seu fluxo de trabalho de edição conversacional. Os usuários podem fazer upload de um clipe, então pedir ao modelo para alterar a cena, adicionar novos personagens ou mudar o ângulo da câmera, tudo por meio de comandos de linguagem natural. Cada instrução se baseia na anterior, preservando a continuidade de personagens e objetos ao longo da edição. O sistema também afirma ter uma compreensão mais profunda das forças físicas - gravidade, energia cinética e dinâmica de fluidos - para que as cenas geradas sejam mais realistas.

Além da fidelidade visual, o Google afirma que o modelo combina fotorealismo com conhecimento contextual de história, ciência e cultura. Essa combinação permite a criação de "narrativas significativas" e vídeos explicativos concisos que quebram ideias complexas com ajuda visual. No lançamento, a saída de áudio será limitada a referências de voz, mas a empresa sugeriu suporte futuro à síntese de fala completa.

Uma das funcionalidades mais pessoais permite que os usuários gerem um avatar digital que espelha sua própria voz e aparência. Ao falar no sistema, os usuários podem produzir vídeos em que aparecem como estrelas, uma capacidade que levanta preocupações de privacidade. O Google respondeu com um compromisso de aplicar políticas claras para proteger contra o uso indevido e lançar a tecnologia de forma responsável.

Cada vídeo criado com o Gemini Omni terá a marca d\'água digital SynthID do Google, uma assinatura invisível que confirma que o conteúdo foi gerado por IA. A marca d\'água é projetada para ser robusta contra adulteração, oferecendo uma maneira de rastrear a mídia sintética até sua fonte.

Embora o marketing do Google destaque a capacidade do modelo de transformar footage comum em momentos cinematográficos, a empresa reconhece que os geradores de vídeo anteriores sofreram de uma aparência de "vale incômodo" que desagradou os usuários. O motor de física aprimorado e a integração de conhecimento do Gemini Omni são projetados para fechar essa lacuna, embora o desempenho no mundo real determinará se as afirmações se sustentam.

A estratégia de lançamento do Google visa tanto profissionais criativos quanto usuários casuais. Ao incorporar a ferramenta em plataformas existentes como YouTube Shorts, a empresa espera democratizar a produção de vídeo de alta qualidade. A movimentação também sinaliza a ambição mais ampla do Google de dominar o mercado de IA gerativa, onde concorrentes estão correndo para oferecer capacidades multimodais comparáveis.

Observadores da indústria estarão atentos à medida que o Gemini Omni Flash atinge uma audiência mais ampla. Se o modelo cumprir sua promessa de criação e edição de vídeo de alta fidelidade e sem problemas, pode estabelecer um novo padrão para mídia sintética e redefinir como o conteúdo é produzido online.

Este artigo foi escrito com a assistência de IA.
News Factory SEO ajuda você a automatizar conteúdo de notícias para o seu site.

Google lança Gemini Omni, modelo de IA que cria e edita vídeo de qualquer entrada

Key Points

Também disponível em: