Anthropic reveló el miércoles que su sistema de IA Claude generó más del 80% del código fusionado en la base de código de producción de la empresa en mayo de 2026, en comparación con los bajos porcentajes de un solo dígito cuando Claude Code debutó en febrero de 2025. El cambio ya ha transformado el flujo de trabajo de los ingenieros de Anthropic. En el segundo trimestre de 2026, un ingeniero típico fusionó ocho veces más código por día que en 2024, y una encuesta interna de 130 miembros del personal de investigación dijo que el modelo más reciente, Mythos Preview, aumentó su productividad aproximadamente cuatro veces en comparación con el trabajo realizado sin asistencia de IA.

El rendimiento de Claude en las tareas de ingeniería más exigentes y abiertas también mejoró dramáticamente. La tasa de éxito del modelo aumentó a 76% en mayo de 2026, un aumento de 50 puntos porcentuales en seis meses. Anthropic citó un incidente reciente en el que una actualización rutinaria causó que decenas de miles de trabajos de capacitación se estrellaran. Un ingeniero alimentó a Claude con los detalles del incidente en vivo y el acceso al cluster; dentro de dos horas, Claude aisló una bandera de depuración poco común, reprodujo el error y confirmó una solución que normalmente habría tomado dos o tres días.

Las brechas de calidad también se están reduciendo. El personal ahora califica el código escrito por Claude como aproximadamente igual al código escrito por humanos, en comparación con "algo peor" a fines de 2025. Un revisor automático de Claude escanea cada cambio propuesto antes de que se fusionen, y un análisis retrospectivo sugiere que habría capturado alrededor de un tercio de los errores detrás de los incidentes relacionados con Claude antes de que llegaran a producción.

Más allá de la codificación, Anthropic está probando las capacidades de investigación de Claude. En abril de 2026, la empresa lanzó una demostración en la que nueve agentes de Claude paralelos abordaron un problema de investigación de seguridad de IA de alta apertura. En 800 horas de cómputo y alrededor de $18,000 en cómputo, los agentes recuperaron el 97% de la brecha de rendimiento en la tarea, mientras que dos investigadores humanos lograron solo el 23% en una semana. Otro experimento interno midió la capacidad de Claude para elegir el "siguiente paso" mejor durante la investigación. En noviembre de 2025, Claude igualó el juicio humano el 51% de las veces; para abril de 2026, esa cifra aumentó al 64%.

El rápido progreso se alinea con las tendencias más amplias rastreadas por METR, una organización sin fines de lucro que establece estándares para las capacidades de IA. Según METR, la longitud de las tareas que la IA puede completar de forma confiable por sí sola ha estado duplicándose aproximadamente cada cuatro meses. Claude Opus 4.6 ahora maneja tareas de 12 horas, y Mythos Preview puede sostener el trabajo durante al menos 16 horas, mucho más allá de las tareas de una hora y media que Claude Sonnet 3.7 manejaba a principios de 2025. Si la curva continúa, las tareas que actualmente requieren días de esfuerzo humano especializado podrían convertirse en rutina más adelante este año, con tareas de una semana de duración que podrían llegar en 2027.

Los efectos posteriores ya son visibles en plataformas como GitHub. El servicio de alojamiento de código procesó alrededor de mil millones de confirmaciones en 2025; a mediados de 2026 estaba manejando 275 millones de confirmaciones por semana, en camino de 14 mil millones anualmente. Claude Code representa el 4,5% de todas las confirmaciones públicas en GitHub, generando aproximadamente 2,6 millones semanales. A medida que Claude produce más código, la revisión de código humana se ha convertido en el nuevo cuello de botella, una ilustración de texto de la ley de Amdahl.

En el documento acompañante del Instituto Anthropic, la empresa cambia de las ganancias de productividad a un llamado a un mecanismo de pausa global verificable para frenar o pausar temporalmente el desarrollo de IA de vanguardia. Anthropic argumenta que una pausa unilateral por un solo laboratorio simplemente transferiría el liderazgo, mientras que un acuerdo coordinado y verificable entre múltiples laboratorios y naciones podría comprar tiempo para abordar las "implicaciones inmensas" de la tecnología. El documento traza paralelos con los tratados de control de armas nucleares, pero señala los desafíos únicos de ocultar las corridas de capacitación de IA y los incentivos masivos para desertar.

Anthropic enmarca el problema como una perspectiva de tres escenarios. El primer escenario ve la trayectoria actual estancada, aún remodelando la economía. El segundo escenario imagina la automatización de la IA del desarrollo mientras los humanos dirigen la dirección de la investigación, lo que permite que equipos pequeños igualen la producción de organizaciones masivas. El tercer escenario, el más especulativo, predice una mejora recursiva completa, donde los sistemas de IA diseñan y capacitan a sus propios sucesores. Aunque Anthropic admite que carece de intuición sólida sobre el tercer resultado, advierte que incluso un sistema recursivo inteligente no puede acelerar todos los dominios: los efectos de los medicamentos, los procesos constitucionales o las relaciones personales siguen limitados por restricciones externas.

El documento llega cuando Anthropic amplía sus ofertas empresariales, vendiendo Claude como una revolución de productividad mientras simultáneamente advierte que la misma aceleración podría demandar un "freno de emergencia". Si la advertencia refleja transparencia principled o posición estratégica se aclarará a medida que el ritmo de la industria continúa superando los mecanismos de supervisión existentes.

Este artículo fue escrito con la asistencia de IA.
News Factory SEO te ayuda a automatizar contenido de noticias para tu sitio.