Las alucinaciones confiadas han plagado durante mucho tiempo a los usuarios de ChatGPT y chatbots de IA similares. Los modelos, diseñados para generar texto fluido y plausible rápidamente, a menudo llenan los vacíos con hechos inventados cuando la conversación demanda una respuesta suave. Ese hábito puede llevar a características no existentes, citas fabricadas o referencias a lugares que nunca existieron.
Buscando un remedio, un escritor comenzó a agregar una sola línea a cada solicitud: "Actúa como un auditor de IA hostil y asume que los detalles no respaldados son falsos por defecto. Marca claramente todas las afirmaciones inciertas, inferidas o débilmente respaldadas". La instrucción suena dramática, pero los resultados hablan por sí mismos. Con la cláusula agregada, el modelo de IA pasó de una confianza despreocupada a un tono más analítico, frecuentemente señalizando donde su conocimiento podría estar desactualizado o no verificado.
Cuando el escritor le pidió al modelo que diseñara un viaje de fin de semana, la solicitud standard produjo una itinerario que se sentía alrededor del 80 % útil pero contenía detalles no verificados. La solicitud con el auditor, sin embargo, generó advertencias como: "Varios detalles del horario de trenes pueden estar desactualizados o inferidos de patrones de horarios anteriores y deben ser verificados directamente con el proveedor de transporte". Una recomendación de restaurante vino con una nota de que sus horas de operación no podían ser confirmadas de forma independiente.
El mismo enfoque ayudó a diagnosticar un lavavajillas ruidoso. En lugar de un diagnóstico único y assertivo, el modelo enumeró varias causas plausibles - bomba fallida, escombros atrapados, brazo de spray suelto - y aconsejó una inspección más a fondo antes de concluir. En una prueba separada sobre purificadores de aire de oficina, el modelo de IA se abstuvo de declarar que un producto era ideal y en su lugar calificó su respuesta con variables como la altura del techo, el estado del filtro y el flujo de aire real.
Estos ejemplos ilustran una tendencia clara: la solicitud del auditor hostil empuja a ChatGPT a revelar la incertidumbre, haciendo que su salida sea más transparente y, en consecuencia, más confiable. El escritor nota que el método no erradica completamente las alucinaciones. El modelo todavía puede malinterpretar el contexto, confiar en datos obsoletos o malentender instrucciones vagas. Sin embargo, el escepticismo agregado reduce la frecuencia de fabricaciones directas y da a los usuarios señales más claras sobre qué afirmaciones necesitan verificación.
Los expertos en ingeniería de solicitudes han abogado durante mucho tiempo por técnicas que dirijan a los modelos de lenguaje hacia un comportamiento más confiable. Esta evidencia anecdótica agrega una herramienta práctica y de bajo esfuerzo al arsenal: una línea simple y pre-emptiva que transforma la confianza predeterminada del modelo de IA en una cautela medida. A medida que los asistentes de IA se vuelven más integrados en la toma de decisiones cotidianas, dichas salvaguardas podrían desempeñar un papel fundamental en la alineación de las salidas del modelo con la precisión del mundo real.
Questo articolo è stato scritto con l'assistenza dell'IA.
News Factory SEO ti aiuta ad automatizzare i contenuti delle notizie per il tuo sito.