Casi la mitad de los estadounidenses ahora recurren a herramientas de inteligencia artificial para investigación y generación de ideas, pero una creciente cantidad de evidencia sugiere que esas herramientas frecuentemente fallan. Un estudio de marzo de 2025 del Tow Center for Digital Journalism encontró que más del 60% de las respuestas de búsqueda impulsadas por IA eran inexactas, mientras que un análisis de la BBC colocó la tasa de error en aproximadamente el 45%.

Las benchmark de la industria pintan un cuadro similar. En la prueba RealFactBench, Claude logró la puntuación más alta con un 73% de precisión en todos los métricos. Gemini 2.5 Pro lideró una evaluación posterior realizada por Google con un 55.6% de precisión, y la mayoría de los demás modelos, incluyendo ChatGPT de OpenAI, no superaron el umbral del 50%. Los números contrastan marcadamente con las afirmaciones hechas por los modelos mismos; cuando se les preguntó sobre su propio rendimiento, ChatGPT citó una precisión del 90-96% en exámenes de estilo profesional, pero la fuente citada no existía.

Los verificadores de hechos humanos siguen confiando en procesos meticulosos y basados en fuentes. El equipo de verificación de hechos de WIRED, por ejemplo, cross-checkea cada afirmación línea por línea, se pone en contacto con fuentes primarias y somete los hallazgos a revisión legal y ética. "Definitivamente necesitas a un ser humano", dice Mark Frankel, jefe de asuntos públicos de Full Fact, una organización con sede en el Reino Unido que utiliza IA para triagar afirmaciones pero aún depende de las personas para verificar los detalles.

Angie Holan, jefa de la Red Internacional de Verificación de Hechos, reconoce la utilidad de la IA cuando dirige a los investigadores a fuentes autorizadas, pero advierte que las alucinaciones de la tecnología pueden engañar. "De esa manera puedes entender las fortalezas y debilidades de estas herramientas", señala, enfatizando la necesidad de que los periodistas, bibliotecarios y archivistas sigan comprometidos con el desarrollo de la IA.

Las limitaciones van más allá de la simple inexactitud. Los grandes modelos de lenguaje reempacan el conocimiento existente, a menudo reproduciendo contenido sin atribución. En la práctica, pueden generar respuestas que suenan plausibles pero que resultan ser recopiladas o fabricadas, como se ilustra en la experiencia del autor al recibir una receta de queso crema vegano que nunca existió en el material fuente.

Después de la publicidad, los investigadores siguen siendo escépticos sobre mejoras rápidas. Un informe de 2025 de la Asociación para el Avance de la Inteligencia Artificial encontró que el 60% de los expertos encuestados dudaban de que el problema de la factualidad se resolvería pronto. A medida que la IA continúa evolucionando, el consenso entre los verificadores de hechos es claro: la automatización puede asistir, pero no puede reemplazar la verificación rigurosa que proporciona la experiencia humana.

Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.

Herramientas de verificación de hechos de IA fallan la mitad de las veces, muestran nuevos datos

Key Points

También disponible en: