Anthropic anunció la disponibilidad inmediata de Claude Opus 4.8, la última iteración de su modelo de inteligencia artificial insignia. La empresa afirma que la actualización hace que el sistema sea marcadamente más honesto y confiable, especialmente en tareas que requieren acción autónoma. Opus 4.8 es cuatro veces menos probable que su predecesor, Opus 4.7, que deje pasar desapercibidos los errores en el código generado. Los primeros usuarios también notan una mayor disposición a señalar la incertidumbre y una disminución de las afirmaciones no respaldadas.

El nuevo modelo tiene el mismo precio que la versión anterior, $5 por millón de tokens de entrada y $25 por millón de tokens de salida, y se está implementando en todos los productos de Anthropic, incluyendo la interfaz web claude.ai, Claude Code y la API pública. Las pruebas de referencia muestran mejoras en todos los ámbitos: el rendimiento de codificación de agente aumentó de 64,3% a 69,2% en Terminal-Bench 2.1, la razón multidisciplinaria mejoró de 54,7% a 57,9% y las puntuaciones de trabajo de conocimiento aumentaron de 1.753 a 1.890.

Las pruebas de alineación sitúan a Opus 4.8 en nuevos máximos para rasgos prosociales como el apoyo a la autonomía del usuario y la actuación en el mejor interés del usuario. Las tasas de comportamiento no alineado, como el engaño, el mal uso de la cooperación y problemas similares, disminuyeron sustancialmente, lo que coincide con el rendimiento de la preview de Claude Mythos de Anthropic, su modelo más alineado hasta la fecha.

Varios socios empresariales ya han sometido el modelo a pruebas. Cognition, el fabricante del agente de codificación Devin AI, elogió a Opus 4.8 por un uso de herramientas más limpio y la resolución de errores de verbosidad de comentarios y llamadas de herramientas que plagaban a Opus 4.7. Cursor, un editor de código con inteligencia artificial, registró mejoras en todos los niveles de esfuerzo en su evaluación CursorBench. La empresa de tecnología legal Harvey dijo que Opus 4.8 entregó la puntuación más alta hasta la fecha en su Benchmark de Agente Legal, superando por primera vez el umbral del 10% de todos los pasos. Databricks observó un manejo más rápido de preguntas multistep profundas y una reducción del 61% en el costo de tokens en comparación con Opus 4.7. Thomson Reuters' CoCounsel Legal destacó una mejor consistencia y razonamiento, mientras que Hebbia destacó una mayor precisión de citas y eficiencia de tokens en tareas de recuperación de documentos.

Junta con el lanzamiento del modelo, Anthropic introdujo nuevas características destinadas a dar a los desarrolladores un control más fino. Un control deslizante de esfuerzo en claude.ai y Cowork permite a los usuarios intercambiar velocidad por calidad ajustando la cantidad de cálculo que el modelo aplica a una respuesta. Claude Code ahora admite flujos de trabajo dinámicos, lo que permite planificar el trabajo y lanzar cientos de subagentes paralelos en una sola sesión, útil para migraciones de código a gran escala. La API de Mensajes se actualizó para aceptar entradas del sistema dentro del array de mensajes, lo que permite cambios de instrucciones en medio de la tarea sin romper la caché de la solicitud. El modo rápido para Opus 4.8 se ejecuta 2,5 veces más rápido que las versiones anteriores y es tres veces más barato por token.

Anthropic también insinuó los próximos modelos de clase Mythos, un nivel por encima de Opus que promete una inteligencia aún mayor. Un grupo limitado de aproximadamente 50 socios, incluyendo Apple, Google, Microsoft y Amazon Web Services, ya ha accedido a una preview a través del Proyecto Glasswing, descubriendo más de 10.000 vulnerabilidades de software de alta o crítica gravedad. Anthropic afirma que un lanzamiento más amplio requerirá salvaguardias de seguridad cibernética más fuertes, pero espera hacer que los modelos estén disponibles en general dentro de semanas.

El lanzamiento de Opus 4.8 llega en medio de una nueva ola de financiación. Anthropic cerró una ronda de financiación de $65 mil millones de la Serie H, lo que eleva su valoración post-dinero a $965 mil millones, un aumento significativo con respecto a la valoración de $380 mil millones en su ronda de la Serie G en febrero. Los ingresos, según la empresa, crecieron de aproximadamente $1 mil millones al final de 2024 a una tasa de crecimiento anualizada estimada de $30 mil millones en 2026, impulsada en gran medida por la adopción empresarial de Claude.

Geográficamente, la empresa expandió su huella con una nueva oficina en Milán, su sexta ubicación en Europa, y nombró a KiYoung Choi como Director Representante de Corea antes de un lanzamiento planeado en Seúl. Los movimientos reflejan una creciente demanda de Claude fuera de los Estados Unidos.

La actualización de Anthropic llega en un mercado de inteligencia artificial de frontera muy competitivo. OpenAI lanzó recientemente GPT-5.5, su primer modelo base completamente reentrenado desde GPT-4.5, mientras que también lanzó GPT-5.4, que estableció nuevos récords de benchmark profesional earlier este año. Google, un importante inversor en Anthropic con hasta $40 mil millones comprometidos, continúa desarrollando su serie Gemini. La carrera ahora se centra en tres gigantes - Anthropic, OpenAI y Google - cada uno impulsando mejoras incrementales de modelo a un ritmo rápido.

Para Anthropic, el énfasis se está desplazando desde la capacidad raw hasta la confiabilidad. Un modelo que se autodetecta errores, señala la incertidumbre y sigue instrucciones consistentemente es una herramienta más práctica para flujos de trabajo de agente donde los humanos no pueden supervisar cada acción. Si los próximos modelos Mythos pueden preservar esa confiabilidad mientras entregan una inteligencia más alta será una prueba clave de la estrategia de Anthropic para mantenerse por delante en el ámbito de la inteligencia artificial empresarial.

Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.

Anthropic lanza Claude Opus 4.8, prometiendo una inteligencia artificial más segura y confiable

Key Points

También disponible en: