En un ensayo cara a cara realizado en un hospital de Boston, un sistema de inteligencia artificial construido por OpenAI superó a los médicos en el diagnóstico de pacientes en la sala de emergencias. El estudio, supervisado por investigadores de Harvard, enfrentó el modelo de razonamiento o1 contra dos médicos que utilizaron registros de salud electrónicos idénticos para cada caso.
Diseño del estudio y resultados
Se evaluaron a 76 pacientes que llegaron al departamento de emergencias. Para cada caso, la IA y los médicos recibieron los mismos datos básicos: signos vitales, detalles demográficos y una breve nota escrita por una enfermera que describía el motivo de la visita. En la primera ronda, la IA identificó el diagnóstico exacto o cercano en el 67% de los casos. Los médicos humanos obtuvieron entre el 50% y el 55%.
En una segunda ronda, se proporcionó información más completa. Bajo esas condiciones, la precisión del modelo o1 aumentó al 82%, mientras que el desempeño de los médicos varió entre el 70% y el 79%. Los investigadores señalaron que la brecha entre la IA y los médicos no alcanzó la significación estadística, lo que modera las afirmaciones de una clara superioridad.
Implicaciones y advertencias
El autor principal, el Dr. Adam Rodman, un médico del Centro Médico Beth Israel Deaconess, enfatizó que el experimento probó la capacidad de razonamiento médico basada en texto, no el espectro completo de la evaluación en la sala de emergencias. "El modelo no ve la angustia del paciente, el tono, el lenguaje corporal o otras señales del mundo real en las que confían los clínicos", dijo.
A pesar de esas limitaciones, Rodman vislumbra un "modelo de atención triádica" en el que los médicos, los pacientes y la IA colaboran. En ese contexto, el sistema podría proporcionar una segunda opinión rápida, especialmente cuando los clínicos necesitan tomar decisiones rápidas con datos limitados.
Los expertos, sin embargo, plantearon varias preocupaciones. La responsabilidad por los errores impulsados por la IA sigue siendo confusa, y la seguridad del paciente podría estar en peligro si los clínicos confían demasiado en las sugerencias algorítmicas. Los autores del estudio enfatizaron que la tecnología no está lista para ser desplegada de forma autónoma en los departamentos de emergencias.
Por ahora, el modelo o1 parece ser más adecuado como una herramienta auxiliar, que ofrece sugerencias diagnósticas rápidas que los médicos pueden verificar contra su propio juicio clínico. A medida que la IA sigue evolucionando, se necesitarán más ensayos con tamaños de muestra más grandes y una interacción en tiempo real con los pacientes para determinar si tales sistemas pueden aumentar de manera segura la atención de emergencia.
Este artículo fue escrito con la asistencia de IA.
News Factory SEO te ayuda a automatizar contenido de noticias para tu sitio.