A Google lançou o Gemini Omni Flash na terça-feira em sua conferência de desenvolvedores I/O, posicionando o novo serviço como um game-changer para qualquer pessoa que queira produzir conteúdo de vídeo sem dominar ferramentas de edição complexas. O sistema de IA aceita texto, imagens, áudio ou filmagens existentes como pontos de partida e, em seguida, gera um vídeo polido que pode ser ajustado por meio de prompts conversacionais simples. Os usuários podem pedir ao modelo para alterar uma cena, ajustar a iluminação ou trocar o traje de um personagem, tudo enquanto o sistema mantém a continuidade e o movimento realista.

O Gemini Omni Flash é o primeiro lançamento público da plataforma mais ampla Gemini Omni, que combina o poder de raciocínio do modelo de linguagem grande Gemini da Google com capacidades avançadas de geração de mídia. O lançamento é realizado por meio de vários produtos da Google: o aplicativo Gemini, o recém-anunciado Google Flow, YouTube Shorts e o estúdio YouTube Create. Desenvolvedores e clientes empresariais receberão acesso mais amplo no final do ano.

Os engenheiros da Google enfatizaram que a principal vantagem da ferramenta é sua facilidade de uso. Em vez de arrastar clipes para uma linha do tempo, os usuários falam ou digitam instruções como "Torne o nascer do sol mais brilhante" ou "Substitua o carro por um modelo vintage". O modelo interpreta o pedido, atualiza o vídeo e preserva a consistência visual para que os personagens permaneçam reconhecíveis e o movimento permaneça coeso durante as edições. O sistema também simula dinâmicas físicas, como gravidade e movimento de fluidos, permitindo que efeitos como um espelho ondulado ou uma escultura de bolha pareçam naturais.

Para abordar as crescentes preocupações com a mídia sintética, a Google incorporou a marca d'água SynthID em cada saída do Gemini Omni Flash. A tag invisível identifica vídeos gerados por IA e pode ser lida por ferramentas de verificação no Chrome, Pesquisa e outros serviços da Google. A empresa disse que a marca d'água ajudará criadores e consumidores a distinguir conteúdo autêntico de material fabricado por IA.

Os primeiros usuários podem criar avatares de vídeo que se assemelham a eles, completos com uma voz correspondente. Recursos de modificação de voz mais avançados permanecem em teste, à medida que a Google avalia salvaguardas de segurança. A empresa enfatizou um lançamento cauteloso, observando que, embora a tecnologia desbloqueie possibilidades criativas poderosas, ela deve ser acompanhada de mecanismos de confiança robustos.

Analistas da indústria veem o Gemini Omni Flash como a resposta da Google a um mercado em rápida evolução para ferramentas de mídia impulsionadas por IA. Concorrentes como OpenAI e Adobe introduziram geradores de vídeo semelhantes, mas o foco da Google em uma experiência de edição conversacional a distingue. Se a ferramenta for intuitiva o suficiente para criadores não técnicos, ela pode acelerar a adoção mainstream da geração de vídeo por IA.

Olhando para o futuro, a Google sugeriu que atualizações futuras do Gemini Omni permitirão que os usuários combinem fotos, música, texto e filmagens em projetos coesos. Ao expandir além do vídeo, a plataforma visa se tornar uma assistente criativa universal para uma variedade de formatos de mídia.

Dieser Artikel wurde mit Unterstützung von KI verfasst.
News Factory SEO hilft Ihnen, Nachrichteninhalte für Ihre Website zu automatisieren.