OpenAI inició la implementación del Modo de Bloqueo esta semana, una configuración de seguridad diseñada para reducir el riesgo de robo de datos a través de ataques de inyección de instrucciones en su servicio ChatGPT. La opción está disponible para todos los usuarios registrados, independientemente del plan – desde el nivel gratuito hasta la oferta empresarial de nivel empresarial.
Al activarse, el Modo de Bloqueo deshabilita un conjunto de capacidades que podrían servir como canales de salida para la exfiltración de información. La navegación web en vivo se limita a páginas en caché solo; el modelo ya no puede recuperar contenido fresco de Internet. El modo de agente, que permite a ChatGPT orquestar tareas multietapa, se desactiva por completo. Las herramientas de investigación profunda, la recuperación de imágenes, la red de Canvas y cualquier función de descarga de archivos también se deshabilitan. En resumen, el modelo pierde la mayoría de las características que lo hacen actuar como un asistente autónomo.
Cómo el Modo de Bloqueo bloquea la exfiltración
La inyección de instrucciones sigue siendo un problema "frontier" para los grandes modelos de lenguaje, según OpenAI. Un atacante incorpora instrucciones maliciosas en el contenido que el modelo procesa – una página web, un documento PDF o incluso un fragmento de código. Si el modelo sigue esas instrucciones ocultas, puede ser engañado para enviar datos sensibles a un servidor controlado por el atacante.
El Modo de Bloqueo no detiene la inyección en sí; una carga maliciosa oculta en una página en caché o un documento subido aún puede influir en el comportamiento del modelo. Lo que hace es cerrar las puertas que el atacante utilizaría para llevarse los datos. Al deshabilitar la navegación en vivo, el modelo no puede emitir solicitudes de red a servidores externos. Sin la recuperación de imágenes, los canales de comunicación ocultos basados en píxeles desaparecen. El resultado es una reducción sustancial en las vías para la exfiltración de datos.
Compromisos y respuesta de la industria
OpenAI hace claro que la función no es una panacea. "El Modo de Bloqueo está diseñado para reducir sustancialmente el riesgo de exfiltración de datos basada en la inyección de instrucciones, pero no garantiza que la exfiltración de datos no pueda ocurrir", dijo la empresa. Los riesgos pueden persistir a través de aplicaciones habilitadas, combinaciones de capacidades impredecibles o técnicas recién descubiertas.
El compromiso es notable. Los usuarios que dependen de las capacidades de agente de ChatGPT, la investigación en tiempo real o las consultas basadas en imágenes verán esas funciones desaparecer cuando el Modo de Bloqueo esté activado. OpenAI reconoce que la configuración "no está destinada a todos" y la recomienda para aquellos que manejan información sensible.
El movimiento llega en medio de evidencia creciente de que los agentes de inteligencia artificial son vulnerables a la toma de control. Los investigadores de seguridad han demostrado ataques de inyección de instrucciones contra agentes de Anthropic, Google y Microsoft, explotando integraciones como GitHub Actions. Esas empresas han pagado recompensas por errores, pero no han emitido avisos públicos.
OpenAI también introdujo una herramienta de administración de sesiones que permite a los usuarios revisar las sesiones de ChatGPT activas y cerrar la sesión en dispositivos individuales si sospechan actividad no autorizada. La nueva función no se puede utilizar junto con el Modo de Desarrollador; activar uno automáticamente desactiva el otro.
Para las empresas que procesan datos confidenciales, la decisión de habilitar el Modo de Bloqueo puede ser sencilla – el beneficio de seguridad supera la pérdida de algunas comodidades. Para los usuarios casuales, la funcionalidad reducida podría ser un deterrente, especialmente a medida que el ecosistema de inteligencia artificial más amplio continúa expandiendo sus capacidades de agente.
La implementación de OpenAI señala un reconocimiento pragmático de que la inyección de instrucciones es una debilidad endémica de los grandes modelos de lenguaje. En lugar de reclamar una solución completa, la empresa ofrece una salvaguarda configurable que permite a los usuarios equilibrar la seguridad con la utilidad. A medida que los agentes de inteligencia artificial se integran más en los flujos de trabajo, es probable que la industria vea controles adicionales destinados a reducir la superficie de ataque mientras se conserva el valor central de la inteligencia artificial conversacional.
Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.