
La Inteligencia Artificial Falla en Diagnósticos Médicos sin Supervisión Humana
Foto: Archivo – Todos los derechos reservados
Un reciente estudio revela que los chatbots de inteligencia artificial (IA) utilizados en la atención médica, como Gemini, Grok, DeepSeek o Chat GPT, muestran deficiencias significativas en la elaboración de diagnósticos iniciales, a pesar de su precisión cuando se les proporciona información clínica completa.
Publicado en la revista JAMA Network Open, el estudio analizó 21 de los modelos de lenguaje grandes (LLM) más avanzados del mercado, concluyendo que la IA aún no está lista para tomar decisiones médicas sin la supervisión constante de un profesional humano.
Metodología del Estudio
Investigadores de la incubadora de innovación MESH de la red de hospitales del Boston Mass General Brigham sometieron a los 21 modelos de IA a una serie de escenarios clínicos simulados. Los resultados indicaron que los LLM a menudo fallan al realizar estudios diagnósticos y proponer diagnósticos diferenciales.
Si bien los sistemas de IA logran un diagnóstico correcto en más del 90% de los casos cuando reciben toda la información pertinente del paciente, muestran debilidades en los pasos iniciales del proceso, que requieren razonamiento clínico. Marc Succi, director ejecutivo de la Incubadora MESH en Mass General Brigham y autor del estudio, enfatizó que, a pesar de las mejoras continuas, los modelos de lenguaje grandes estándar no están listos para un despliegue clínico sin supervisión.
“Los diagnósticos diferenciales son fundamentales para el razonamiento clínico y subyacen al ‘arte de la medicina’ que la IA no puede replicar actualmente,” señaló Succi. Por ahora, la IA solo sirve para “aumentar, no reemplazar, el razonamiento del médico, siempre que todos los datos relevantes estén disponibles, lo cual no siempre es el caso.”
PrIME-LLM: Una Nueva Métrica de Evaluación
El equipo de investigación desarrolló la medida PrIME-LLM para evaluar la capacidad de los modelos de IA para proponer diagnósticos potenciales, solicitar las pruebas adecuadas, llegar a un diagnóstico final y gestionar el tratamiento. Esta puntuación refleja con precisión el rendimiento de los modelos en diferentes áreas, evitando promedios que podrían ocultar debilidades.
El estudio comparó 21 LLM de propósito general, incluyendo los últimos modelos de ChatGPT, DeepSeek, Claude, Gemini y Grok, evaluando su capacidad para manejar 29 casos clínicos publicados. La información se proporcionó gradualmente, comenzando con datos básicos como edad, sexo y síntomas, antes de añadir hallazgos de exámenes físicos y resultados de laboratorio.
Estudiantes de medicina evaluaron el desempeño de los LLM en cada etapa, utilizando estas evaluaciones para calcular las puntuaciones generales PrIME-LLM de los modelos. Los investigadores encontraron que los LLM eran competentes en la producción de diagnósticos finales precisos, pero fallaban en la elaboración de un diagnóstico diferencial en más del 80% de las veces.
Arya Rao, autora principal e investigadora de MESH, explicó: “Observamos que son excelentes para nombrar un diagnóstico final una vez que los datos están completos, pero tienen dificultades en el inicio abierto de un caso, cuando no hay mucha información.”
La Evolución de la IA en la Medicina
El estudio también sirve como un indicador de la rápida evolución de la IA, mostrando que los modelos más recientes generalmente superaron a los modelos más antiguos, lo que sugiere una mejora constante. En la escala PriME-LLM, las puntuaciones de los modelos oscilaron entre el 64% para Gemini 1.5 Flash y el 78% para Grok 4 y GPT-5.
Además, se confirmó que la precisión de todos los LLM mejoraba sustancialmente al incorporar datos no textuales.
Susana Manso, del grupo de trabajo de Inteligencia Artificial y Salud Digital de la Sociedad Española de Medicina de Familia y Comunitaria (semFYC), comentó que el estudio “cuestiona directamente la idea de utilizar estos sistemas como herramientas diagnósticas autónomas” y “refuerza un enfoque más prudente, en el que los modelos de lenguaje se utilicen como apoyo al profesional sanitario, especialmente en tareas estructuradas o con menor grado de incertidumbre.”













