A Google revelou o Gemini Omni na terça-feira em sua conferência anual de desenvolvedores I/O, posicionando o novo serviço como o próximo salto na mídia sintética. A IA multimodal pode ingerir virtualmente qualquer combinação de texto, imagens ou clipes de vídeo e produzir vídeos realistas de alta fidelidade. Impulsionado pela arquitetura de modelagem Gemini, o Omni trata cada entrada como parte de um modelo de mundo unificado, permitindo que o sistema mantenha uma lógica visual e física consistente em toda a filmagem gerada.

No lançamento, os usuários criarão vídeos usando prompts de texto, imagens estáticas ou footagens de vídeo existentes. As funções de imagem-para-vídeo e texto-para-vídeo estão disponíveis agora; uma atualização futura adicionará capacidades de geração de texto puro. A ferramenta também atua como um editor. Após gerar um clipe, os criadores podem alimentar o resultado novamente no Omni, emitir um novo prompt e ter o sistema substituir ou modificar elementos específicos — mudando o fundo, trocando a roupa de um sujeito ou mesmo inserindo um avatar personalizado que imita a voz e a aparência do usuário.

A Google construiu salvaguardas no fluxo de trabalho. Cada saída do Omni carrega uma marca d'água SynthID que identifica o conteúdo como gerado por IA, uma medida destinada a conter a disseminação de mídia enganosa. A empresa afirma que a marca d'água é aplicada automaticamente e não pode ser removida pelo usuário.

O acesso ao Gemini Omni será implantado em vários produtos da Google. Assinantes pagos já podem experimentar a ferramenta dentro do aplicativo Gemini redesenhado, onde modelos podem ser adicionados a uma biblioteca de fotos com um toque simples. A mesma funcionalidade aparecerá no Google Flow e nos YouTube Shorts mais tarde esta semana. Desenvolvedores e clientes empresariais receberão acesso à API nas próximas semanas, abrindo a porta para integrações personalizadas e uso comercial mais amplo.

O Omni é oferecido em dois níveis. A versão Flash inicial, que está atualmente disponível, fornece geração rápida para usuários comuns. A Google promete uma variante Pro mais poderosa no futuro, embora não tenha divulgado um cronograma. Ao combinar entrada multimodal, simulação de física avançada e edição integrada, o Gemini Omni visa estabelecer um novo padrão para a criação de vídeo impulsionada por IA, enquanto navega pelos desafios éticos que acompanham a mídia sintética realista.

Questo articolo è stato scritto con l'assistenza dell'IA.
News Factory SEO ti aiuta ad automatizzare i contenuti delle notizie per il tuo sito.