Na sua evento I/O 2026, Google anunciou que o Gemini 3.5 Flash agora inclui uma ferramenta de uso de computador nativa, substituindo o modelo autônomo Gemini 2.5 anterior. A integração permite que os agentes de IA vejam telas, raciocinem sobre o conteúdo visual e realizem ações como clicar em botões, digitar texto e rolar através de navegadores, aplicativos móveis e interfaces de desktop - tudo através da API do Gemini e da plataforma de agente de empresa do Gemini, anteriormente conhecida como Vertex AI.
Os desenvolvedores não precisam mais invocar um modelo separado para lidar com interfaces gráficas. O gerente de produto Mateo Quiros descreveu a mudança como dando ao Flash a capacidade de "ver, raciocinar e agir em telas" ao lado de suas ferramentas existentes para execução de código, busca e chamada de funções. O fluxo de trabalho anterior exigia um loop de ação de captura de tela: os desenvolvedores enviavam uma captura de tela, o modelo retornava um comando estruturado, o sistema executava o comando e a visão atualizada era alimentada de volta. Integrar a capacidade no Flash consolida esse processo de dois modelos em um fluxo único e simplificado.
Google apresenta a funcionalidade como mais do que uma atualização de chatbot. Os usuários de empresas podem automatizar testes de software contínuos, permitindo que os agentes naveguem por aplicativos e verifiquem a funcionalidade sem que os testadores humanos precisem passar por cada tela. Os trabalhadores do conhecimento também podem empregar agentes para concluir tarefas de navegador de múltiplos passos, preencher formulários, extrair dados de painéis ou mover-se por ferramentas internas.
A segurança é um foco central. Google afirma ter aplicado treinamento adversarial direcionado para defender contra ataques de injeção de prompts, onde instruções maliciosas incorporadas em uma página da web ou documento enganam um agente de IA para realizar ações não intencionais. A empresa oferece duas salvaguardas opcionais em cima do modelo base. A primeira solicita confirmação explícita do usuário antes de o agente realizar qualquer ação considerada sensível ou irreversível, como enviar um formulário, fazer uma compra ou excluir dados. A segunda para automaticamente o agente se detectar uma tentativa indireta de injeção de prompts, interrompendo a execução em vez de arriscar uma ação comprometida. Ambas as medidas são opt-in, e Google recomenda uma estratégia de "defesa em profundidade" que camada múltiplas proteções.
A paisagem competitiva mudou desde que a Anthropic introduziu o Claude Computer Use, que funciona em vários sistemas operacionais e pode interagir com sistemas de arquivos, não apenas navegadores. O Chrome Enterprise da Google já adicionou recursos de navegação autônoma anteriormente este ano, e a nova integração do Flash estende essa filosofia além do Chrome para qualquer tela que um agente possa ver. A OpenAI também entrou no espaço, tornando o mercado uma disputa de três vias focada na segurança tanto quanto na capacidade.
Google não divulgou pontuações de benchmark atualizadas para a ferramenta integrada, nem divulgou quantas empresas a adotaram. O post do blog da empresa menciona o treinamento adversarial direcionado, mas não fornece pesquisas publicadas ou resultados de equipe vermelha. O preço segue um modelo de pagamento conforme o uso na plataforma de agente de empresa do Gemini, com o Flash posicionado como um dos modelos mais baratos na linha de produtos da Google, potencialmente reduzindo a barreira para automação em grande escala.
Embora a integração sinalize confiança na maturidade da IA de uso de computador, as salvaguardas opt-in reconhecem que a tecnologia ainda luta com pop-ups inesperados, CAPTCHAs, conteúdo carregado dinamicamente e layouts desconhecidos. A decisão da Google de tornar a capacidade geralmente disponível sugere que ela está pronta para muitas tarefas do mundo real, ainda que as guardas de segurança lembrem os usuários de que a operação não supervisionada permanece arriscada.
Este artigo foi escrito com a assistência de IA.
News Factory APP - notícias agênticas para impulsionar seu SEO e AEO.