A Anthropic divulgou na quarta-feira que seu sistema de IA Claude gerou mais de 80% do código mesclado na base de código de produção da empresa em maio de 2026, em comparação com os baixos níveis de um dígito quando o Claude Code foi lançado em fevereiro de 2025. A mudança já transformou o fluxo de trabalho dos engenheiros da Anthropic. No segundo trimestre de 2026, um engenheiro típico mesclou oito vezes mais código por dia do que em 2024, e uma pesquisa interna com 130 funcionários de pesquisa disse que o último modelo, Mythos Preview, aumentou sua produtividade aproximadamente quatro vezes em comparação com o trabalho feito sem assistência de IA.
O desempenho de Claude em tarefas de engenharia mais exigentes também melhorou dramaticamente. A taxa de sucesso do modelo aumentou para 76% em maio de 2026, um aumento de 50 pontos percentuais em seis meses. A Anthropic citou um incidente recente em que uma atualização de rotina causou a quebra de dezenas de milhares de trabalhos de treinamento. Um engenheiro forneceu a Claude os detalhes do incidente ao vivo e acesso ao cluster; dentro de duas horas, Claude isolou uma flag de depuração obscura, reproduziu a quebra e confirmou uma solução que normalmente levaria dois a três dias.
As lacunas de qualidade também estão se estreitando. Os funcionários agora avaliam o código escrito por Claude como aproximadamente igual ao código escrito por humanos, em comparação com "um pouco pior" no final de 2025. Um revisor automático de Claude verifica todas as alterações propostas antes que sejam mescladas, e uma análise retrospectiva sugere que ele teria capturado cerca de um terço dos bugs por trás dos incidentes relacionados a Claude antes que eles chegassem à produção.
Além da codificação, a Anthropic está testando as capacidades de pesquisa de Claude. Em abril de 2026, a empresa lançou uma demonstração em que nove agentes de Claude paralelos abordaram um problema de pesquisa de segurança de IA de abertura. Em 800 horas de computação e cerca de $18.000 em computação, os agentes recuperaram 97% da lacuna de desempenho na tarefa, enquanto dois pesquisadores humanos alcançaram apenas 23% em uma semana. Outro experimento interno mediu a capacidade de Claude de escolher o "próximo passo" melhor durante a pesquisa. Em novembro de 2025, Claude igualou o julgamento humano 51% do tempo; em abril de 2026, essa figura aumentou para 64%.
O progresso rápido está alinhado com tendências mais amplas rastreadas pela METR, uma organização sem fins lucrativos que cria benchmarks de capacidades de IA. De acordo com a METR, o comprimento das tarefas que a IA pode concluir sozinha está dobrando aproximadamente a cada quatro meses. O Claude Opus 4.6 agora lida com tarefas de 12 horas, e o Mythos Preview pode sustentar o trabalho por pelo menos 16 horas - muito além das tarefas de uma hora e meia gerenciadas pelo Claude Sonnet 3.7 no início de 2025. Se a curva continuar, as tarefas que atualmente exigem dias de esforço humano qualificado podem se tornar rotineiras mais tarde este ano, com tarefas de uma semana possivelmente chegando em 2027.
Os efeitos downstream já são visíveis em plataformas como o GitHub. O serviço de hospedagem de código processou cerca de um bilhão de commits em 2025; em meados de 2026, estava lidando com 275 milhões de commits por semana, no caminho para 14 bilhões anualmente. O Claude Code é responsável por 4,5% de todos os commits públicos no GitHub, gerando cerca de 2,6 milhões semanais. À medida que Claude produz mais código, a revisão de código humano se tornou o novo gargalo, uma ilustração clássica da lei de Amdahl.
No artigo acompanhante do Instituto Anthropic, a empresa muda de ganhos de produtividade para um apelo a um mecanismo global verificável para desacelerar ou pausar temporariamente o desenvolvimento de IA de fronteira. A Anthropic argumenta que uma pausa unilateral por um único laboratório simplesmente mudaria a liderança, enquanto um acordo coordenado e verificável entre vários laboratórios e nações poderia comprar tempo para abordar as "imensas implicações" da tecnologia. O artigo traça paralelos com tratados de controle de armas nucleares, mas observa os desafios únicos de ocultar execuções de treinamento de IA e os incentivos maciços para desertar.
A Anthropic define a questão como uma perspectiva de três cenários. O primeiro cenário vê a trajetória atual parar, ainda remodelando a economia. O segundo cenário imagina a automação de desenvolvimento impulsionada por IA, enquanto os humanos direcionam a direção da pesquisa, permitindo que equipes pequenas igualem a produção de organizações massivas. O terceiro cenário, mais especulativo, prevê a auto melhoria recursiva completa, onde os sistemas de IA projetam e treinam seus próprios sucessores. Embora a Anthropic admita que falta intuição sólida sobre o terceiro resultado, ela alerta que mesmo um sistema recursivamente inteligente não pode acelerar todos os domínios - efeitos de drogas, processos constitucionais ou relacionamentos pessoais permanecem limitados por restrições externas.
O artigo chega à medida que a Anthropic expande suas ofertas de empresa, vendendo Claude como uma revolução de produtividade, enquanto simultaneamente alerta que a mesma aceleração pode exigir uma "freia de emergência". Se o alerta reflete transparência principled ou posicionamento estratégico, ficará claro à medida que o ritmo da indústria continua a superar os mecanismos de supervisão existentes.
Este artigo foi escrito com a assistência de IA.
News Factory SEO ajuda você a automatizar conteúdo de notícias para o seu site.