A Google usou sua conferência de desenvolvedores I/O para lançar a Gemini Omni, o próximo passo na busca da empresa por um modelo de linguagem grande e verdadeiramente multimodal. A família de modelos promete transformar qualquer combinação de texto, imagens, áudio e vídeo em uma saída coerente, começando com a criação de vídeo.
O Gemini Omni Flash, o primeiro modelo lançado hoje, pode gerar até 10 segundos de vídeo. Ele estará disponível por meio do aplicativo móvel Gemini, YouTube Shorts e o AI Creative Studio Flow, dando aos consumidores uma ferramenta que se sente tão simples quanto digitar um prompt. A Google justifica o limite como uma decisão de produto, não uma barreira técnica, e afirma que cliques mais longos estão no cronograma.
Ao contrário de ofertas anteriores que apenas costuravam as entradas juntas, a Omni "raciocina" em diferentes modalidades, produzindo imagens que refletem uma compreensão de física, cultura, história e ciência. Em uma demonstração, o diretor de tecnologia da DeepMind, Koray Kavukcuoglu, pediu ao sistema um "explicador de animação de argila de dobramento de proteína" e recebeu um vídeo em stop-motion completo com uma voz-over descrevendo cadeias de aminoácidos, hélices alfa e folhas beta.
A diretora de gerenciamento de produtos da Google DeepMind, Nicole Brichtova, posicionou a Gemini Omni como mais do que uma atualização do modelo de vídeo Veo da empresa. Ela a chamou de "o próximo passo em direção à progressão da combinação da inteligência da Gemini com as capacidades de renderização de nossos modelos de mídia". O sistema também permite que os usuários editem fotos usando comandos de linguagem simples, um recurso lembrando o protótipo Nano Banana da Google anterior.
O CEO da Google, Sundar Pichai, destacou a ambição mais ampla: mover a IA de prever texto para "simular a realidade". Ele observou que treinar a Gemini em uma combinação de texto, código, áudio, imagens e vídeo produz um modelo de mundo mais profundo, habilitando capacidades como gerar imagens de áudio ou áudio de vídeo.
A Gemini Omni inclui salvaguardas contra o uso indevido de deepfakes. Os usuários devem concluir um processo de integração de produto que grava sua voz falando uma série de números, criando um avatar digital verificado armazenado para uso futuro. Todo vídeo gerado carrega a marca d'água digital SynthID da Google, permitindo que os espectadores confirmem a origem de IA do conteúdo.
Além das aplicações de consumidor, a Google planeja expor a Gemini Omni via API nas próximas semanas. Brichtova sugeriu que anunciantes, cineastas e outros criadores poderiam aproveitar o fluxo de trabalho multimodal de ponta a ponta para campanhas e produções. Uma variante de alto desempenho, Omni Pro, é prometida para mais tarde, embora nenhuma data de lançamento tenha sido dada.
O anúncio sinaliza a confiança da Google de que uma IA multimodal pode fechar a lacuna entre a pesquisa experimental e as ferramentas do dia a dia, posicionando a empresa para competir diretamente com rivais que recentemente introduziram recursos de geração de vídeo.
Este artículo fue escrito con la asistencia de IA.
News Factory SEO te ayuda a automatizar contenido de noticias para tu sitio.