A Anthropic lançou o Claude Sonnet 5 para todos os usuários em sua plataforma, apresentando o modelo como um passo além dos chatbots comuns. A empresa descreve o sistema como projetado para "trabalho de engenharia de software multi-etapas", codificação sustentada, uso de ferramentas, depuração e "contextos técnicos complexos". Ele pode planejar, navegar, executar comandos de terminal e operar com um grau de autonomia maior do que os modelos anteriores e mais baratos.

Teste de planejamento de viagem mostra comportamento de agente

O revisor da TechRadar submeteu o novo modelo a um cenário do mundo real: planejar uma viagem de fim de semana para Bath, na Inglaterra, para dois adultos e dois adolescentes. O prompt pediu ao Claude que elaborasse um itinerário breve, listasse o que poderia ser concluído imediatamente, flagrasse itens que necessitavam de ferramentas ou julgamento humano, anotasse suposições e fornecesse uma lista de verificação de confirmação. Em segundos, o Claude retornou um plano estruturado que incluía opções de viagem, um local de almoço sugerido, uma visita às Termas Romanas e um mapa interativo que apontava cada recomendação.

Ao contrário de uma resposta simples, a saída também destacou o que havia sido concluído, o que ainda exigia ação humana e a "próxima melhor etapa" para o usuário. Quando o testador adicionou detalhes, como a data de viagem, o Claude forneceu uma previsão do tempo para aquele dia, reforçando a sensação de um assistente dinâmico que se adapta à medida que novas informações chegam.

O ChatGPT-5.5 Medium recebeu o mesmo prompt. Ele produziu um itinerário comparável e também notificou o testador quando a tarefa foi concluída, mas carecia de elementos visuais como o mapa e apresentou o resultado como um relatório estático. O revisor notou que o ChatGPT assumiu viagem de trem, enquanto o Claude defaultou para dirigir, e cada modelo sugeriu restaurantes diferentes. Ambos os modelos identificaram corretamente que o adolescente mais velho, um estudante universitário, poderia receber entrada gratuita nas Termas Romanas.

Desafio de planilha destaca capacidade iterativa

O revisor mudou para um domínio diferente, pedindo a cada IA que construísse um rastreador de orçamento doméstico simples. Ambos os modelos geraram um arquivo de planilha. A versão do ChatGPT apresentou um gráfico de barras que rastreava despesas contra um orçamento, enquanto o Claude optou por um layout mais simples com um gráfico de pizza que mostrava categorias de gastos. O Claude também ofereceu um botão para carregar o arquivo diretamente no Google Drive, facilitando a transferência para o usuário.

Quando o testador solicitou uma atualização do gráfico de pizza, o ChatGPT atendeu, mas tropeçou ao tentar exibir tanto os valores orçados quanto os reais no mesmo gráfico antes de entregar a versão corrigida. O Claude, após uma breve revisão, adicionou uma seção de orçamento e trocou o gráfico de pizza por um gráfico de barras exatamente como solicitado, novamente mostrando seus passos de raciocínio internos.

Ambos os modelos lidaram com revisões suavemente, demonstrando que o verdadeiro teste hoje não é qual chatbot entrega a melhor resposta única, mas qual deles continua trabalhando até que o trabalho seja efetivamente concluído. O revisor concluiu que o Claude Sonnet 5 se sente "extremamente capaz" em um papel de agente, apresentando saídas de forma mais organizada e colaborativa. O ChatGPT permaneceu perto, oferecendo funcionalidade semelhante, mas com uma apresentação menos polida.

Nenhum dos assistentes pode finalizar reservas, carregar arquivos automaticamente ou tomar decisões sem supervisão humana, então a tecnologia ainda não está no nível de um assistente pessoal que executa tarefas de forma independente. No entanto, o lançamento da Anthropic marca uma mudança clara na corrida de IA em direção a modelos que atuam como colegas de trabalho, preenchendo a lacuna entre responder perguntas e concluir tarefas.

Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.