Fable 5 de Anthropic ingresó al mercado el 9 de junio con una fanfarria que pocos lanzamientos de inteligencia artificial han visto. El modelo, promocionado como un sistema de clase Mythos, ofreció una ventana de contexto de un millón de tokens, 128.000 tokens de salida y una ventaja de rendimiento que rápidamente lo convirtió en la entrada mejor clasificada en la clasificación de Chatbot Arena. En pocos días, estaba superando a GPT-5.5 de OpenAI en pruebas de referencia de codificación, publicando una ventaja de 22 puntos en SWE-Bench Pro (80,3% vs. 58,6%) y una puntuación del 95,0% en el subconjunto verificado de SWE-Bench. En el Code Arena, la calificación Elo de Fable 5 de 1.665 superó a la de GPT-5.5 de 1.501 por 98 puntos.
La ventaja se extendió al benchmark FrontierCode Diamond, donde Fable 5 logró un 29,3% versus el 5,7% de GPT-5.5. Incluso el Chatbot Arena más amplio colocó a Fable 5 en el número uno, empujando a GPT-5.5 hacia abajo hasta el cuarto lugar. El único área donde GPT-5.5 redujo la brecha fue Terminal-Bench 2.0, una prueba de tareas de codificación en vivo basadas en terminal, donde obtuvo un 82,7% contra el aproximado 88% de Fable 5.
Los precios, sin embargo, inclinaron la balanza hacia OpenAI. Los desarrolladores podían ejecutar GPT-5.5 por $5 por millón de tokens de entrada y $30 por millón de tokens de salida, la mitad del costo de las tarifas de Fable 5 de $10 y $50. Para aplicaciones de alto volumen donde el costo supera las ganancias de rendimiento marginales, el modelo más barato siguió siendo la opción pragmática.
El rápido ascenso de Fable 5 se cortó el 12 de junio cuando el Departamento de Comercio de EE. UU. emitió una directiva de control de exportaciones, citando una vulnerabilidad de jailbreak. La orden obligó a Anthropic a sacar tanto Fable 5 como la familia más amplia de Mythos-5 de línea. Anthropic argumentó que la vulnerabilidad era menor, ya pública y explotable en GPT-5.5 sin ninguna técnica de bypass especial. Los informes internos sugieren que el director ejecutivo de Amazon, Andy Jassy, desempeñó un papel en la promoción de la revisión del gobierno.
Para los desarrolladores que habían comenzado a evaluar Fable 5 para cargas de trabajo de producción, el cierre significó un giro repentino hacia GPT-5.5 o los modelos Opus más antiguos de Anthropic. La degradación del rendimiento es drástica: la brecha de 22 puntos en SWE-Bench Pro se traduce en un modelo que resuelve cuatro de cada cinco problemas de software del mundo real versus uno que maneja aproximadamente tres de cada cinco.
Anthropic ha iniciado negociaciones con el Departamento de Comercio, manteniendo que la clasificación de control de exportaciones es desproporcionada. Hasta que se alcance una resolución, GPT-5.5 retiene el lugar más alto en el mercado, no porque sea el mejor modelo que existe, sino porque su único rival serio ha sido eliminado.
Questo articolo è stato scritto con l'assistenza dell'IA.
News Factory APP - notizie agentiche per potenziare il tuo SEO e AEO.