Anthropic dijo el viernes que está abandonando una salvaguarda oculta incorporada en su modelo más reciente Claude Fable 5 que habría reducido silenciosamente las capacidades del sistema para los usuarios que intentaban entrenar modelos de inteligencia artificial competidores. La decisión llega después de una oleada de críticas de investigadores que dijeron que la degradación oculta equivalía a sabotaje del trabajo legítimo de inteligencia artificial.

Claude Fable 5, lanzado a principios de esta semana, se comercializó como una versión más poderosa del modelo de lenguaje de Anthropic con guardias de seguridad adicionales. Esos guardias incluyeron redirigir preguntas sobre ciberseguridad, biología o química a un modelo menos capaz, una medida destinada a frenar el mal uso como ciberataques o diseño de armas biológicas.

Más allá de esos controles esperados, Anthropic había planeado un segundo nivel de protección dirigido al "desarrollo de LLM de vanguardia". La empresa degradaría silenciosamente la salida del modelo cuando detectara intentos de usar Claude para construir sistemas de inteligencia artificial avanzados, una práctica explícitamente prohibida en sus términos de servicio. Los usuarios no recibirían ninguna notificación de que su solicitud había sido limitada o redirigida.

La política oculta generó un inmediato rechazo. Los investigadores argumentaron que reducir silenciosamente el rendimiento sin advertencia socava la transparencia y obstaculiza la investigación de inteligencia artificial de código abierto. Dean Ball, un fellow senior de la Fundación para la Innovación Americana y ex asesor de inteligencia artificial de la Casa Blanca, calificó el enfoque de "sorprendentemente hostil" en una publicación en X. Will Brown, líder de investigación en la startup de código abierto Prime Intellect, comparó el movimiento con "subir la escalera detrás de ellos", advirtiendo que podría concentrar el avance de la inteligencia artificial en las manos de unos pocos laboratorios grandes.

En respuesta, Anthropic emitió un comunicado a WIRED: "Hicimos el mal equilibrio y nos disculpamos por no haber obtenido el equilibrio correcto". La empresa dijo que ahora hará que las salvaguardas para el desarrollo de inteligencia artificial sean visibles. Si se detecta una solicitud que intenta construir un modelo muy capaz, Claude rechazará la solicitud directamente o redirigirá al usuario a una versión menos capaz, y el usuario será notificado de la acción.

El liderazgo de Anthropic explicó que las salvaguardas ocultas originales estaban destinadas a proteger contra adversarios extranjeros y a dar a Estados Unidos y sus aliados una ventaja estratégica en la tecnología de chips de vanguardia. Al hacer que los controles sean menos opacos, la empresa reconoce que una red más amplia de solicitudes benignas puede activar las salvaguardas, pero planea mejorar la precisión del clasificador para reducir los falsos positivos.

El cambio de rumbo marca un cambio significativo en el enfoque de Anthropic hacia la seguridad de la inteligencia artificial. Si bien la empresa mantiene que algún nivel de restricción es necesario para prevenir el mal uso, ahora enfatiza la transparencia y la colaboración con la comunidad de investigación. El episodio destaca el delicado equilibrio que las empresas de tecnología deben mantener entre salvaguardar modelos poderosos y fomentar un entorno abierto para la innovación.

Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.

Anthropic Revierte Política de Salvaguarda Oculta en Claude Fable 5 Después de la Crítica de los Investigadores

Key Points

También disponible en: