As Visões Gerais da Inteligência Artificial do Google, as caixas de respostas impulsionadas pela Gemini que ficam no topo dos resultados de busca, têm sido criticadas desde seu lançamento em 2024. O New York Times se uniu à Oumi, uma startup que constrói modelos de inteligência artificial, para realizar um teste de precisão sistemático do recurso. Usando o benchmark SimpleQA – um conjunto de mais de 4.000 perguntas verificáveis lançadas pela OpenAI – os pesquisadores descobriram que as Visões Gerais respondiam corretamente 91 por cento das vezes.
A taxa de erro de 9 por cento pode parecer modesta, mas quando extrapolada para os bilhões de buscas diárias do Google, significa que centenas de milhares de respostas incorretas são entregues a cada minuto. A Oumi realizou o teste pela primeira vez no ano passado, enquanto a Gemini 2.5 ainda era o modelo de bandeira da Google. Naquela época, o benchmark mostrou uma taxa de sucesso de 85 por cento. Após o lançamento da Gemini 3, a precisão aumentou para 91 por cento, um ganho modesto que ainda deixa um volume substancial de desinformação no fluxo.
Falhas específicas ilustram o problema. Quando questionado sobre a data em que a antiga casa de Bob Marley se tornou um museu, as Visões Gerais citaram três fontes, duas das quais omitiram a data inteiramente. A terceira fonte, a Wikipedia, listou dois anos conflitantes, e a inteligência artificial selecionou confiantemente o ano incorreto. Em outro caso, o sistema foi questionado sobre a indução de Yo-Yo Ma no Hall da Fama da Música Clássica. Embora o site da organização confirmasse a indução, as Visões Gerais alegaram que o Hall da Fama não existia.
O Google reconhece que as Visões Gerais da Inteligência Artificial ainda estão aprendendo. A empresa lançou atualizações destinadas a melhorar a factualidade, mas o relatório do New York Times sugere que o desempenho atual do recurso não atende ao alto padrão que os usuários esperam de um gigante de busca. Críticos argumentam que mesmo uma pequena porcentagem de erro pode erodir a confiança quando as respostas aparecem em um formato proeminente e "instantâneo".
A participação da Oumi adiciona uma camada extra de credibilidade. Como desenvolvedora de ferramentas de inteligência artificial gerativa, a startup tem um interesse direto na benchmarking precisa. Sua metodologia envolveu alimentar as perguntas do SimpleQA para as Visões Gerais e verificar manualmente as fontes citadas. A transparência do estudo, no entanto, para de revelar a lista completa de respostas errôneas, citando o volume maciço de dados.
O Google ainda não comentou publicamente sobre as descobertas do New York Times. Observadores da indústria notam que as próximas etapas da empresa provavelmente envolverão uma verificação de fontes mais rigorosa e talvez um sistema de flagração para respostas incertas. Por enquanto, a pesquisa destaca uma realidade: à medida que o conteúdo gerado por inteligência artificial se torna mais visível, suas imperfeições se tornam mais consequenciais.
Questo articolo è stato scritto con l'assistenza dell'IA.
News Factory SEO ti aiuta ad automatizzare i contenuti delle notizie per il tuo sito.