OpenAI anunció una nueva opción de seguridad para su chatbot insignia, ChatGPT, llamada Modo de Bloqueo. La configuración deshabilita varias capacidades que podrían servir como conductos para ataques de inyección de instrucciones, una técnica donde instrucciones maliciosas se ocultan en contenido web o archivos subidos y manipulan las respuestas del modelo.

Al activarse, el Modo de Bloqueo deshabilita la navegación web en vivo, lo que significa que el modelo solo puede dibujar de páginas en caché en lugar de recuperar contenido fresco. También bloquea la recuperación y visualización de imágenes de Internet, aunque los usuarios aún pueden generar imágenes dentro del chat. Las herramientas de investigación profunda y el modo de agente experimental también están deshabilitadas, reduciendo la superficie para la posible explotación.

OpenAI reconoce que la salvaguarda no hace que ChatGPT sea inmune a todos los escenarios de inyección. Las instrucciones maliciosas aún podrían aparecer en material en caché o en archivos que los usuarios suben, influyendo potencialmente en la salida del modelo. La empresa presenta la función como una medida de reducción de riesgos, no como una garantía de seguridad absoluta.

"El Modo de Bloqueo no está destinado a todos", dijo la empresa en su anuncio. "Está diseñado para personas y organizaciones que manejan datos sensibles y desean una protección más estricta contra los riesgos de exfiltración de datos relacionados con la inyección de instrucciones". La redacción subraya una audiencia objetivo de empresas, laboratorios de investigación y personas conscientes de la privacidad.

El lanzamiento comienza con cuentas de ChatGPT Business de autoservicio, lo que permite a las empresas habilitar el modo a demanda. Las cuentas personales elegibles también pueden optar, aunque los criterios de elegibilidad no han sido divulgados. OpenAI no especificó un cronograma para una disponibilidad más amplia.

La medida se produce en un momento en que los desarrolladores de inteligencia artificial lidian con crecientes preocupaciones sobre el mal uso de los modelos. Los ataques de inyección de instrucciones han surgido en los últimos meses, lo que ha llevado a llamadas a controles más estrictos. Al limitar las fuentes de datos externas, OpenAI espera reducir las vías a través de las cuales los adversarios pueden inyectar instrucciones dañinas.

Los observadores de la industria señalan que la función puede atraer a sectores regulados como las finanzas, la atención médica y los servicios legales, donde la fuga de datos conlleva penas severas. Al mismo tiempo, las restricciones podrían reducir la utilidad del modelo para tareas que dependen de información actualizada o contexto visual.

La declaración de OpenAI deja claro que la empresa ve el Modo de Bloqueo como parte de una herramienta de seguridad más amplia en lugar de una solución independiente. La empresa continúa explorando salvaguardas adicionales, incluida una mejor detección de instrucciones maliciosas y controles de usuario más granulares.

A medida que el panorama de la inteligencia artificial evoluciona, el equilibrio entre funcionalidad y seguridad sigue siendo un desafío central. El Modo de Bloqueo marca un paso concreto hacia la protección de flujos de trabajo sensibles mientras se preserva la experiencia conversacional central que los usuarios esperan de ChatGPT.

Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.

OpenAI lanza Modo de Bloqueo para reducir las amenazas de inyección de instrucciones

Key Points

También disponible en: