Un estudio reciente dirigido por investigadores del Mass General Brigham ha arrojado luz sobre la precisión de ChatGPT en la toma de decisiones clínicas.
La investigación reveló que el chatbot de IA del modelo de lenguaje grande (LLM) logró aproximadamente un 72 % de precisión en las decisiones clínicas generales, abarcando tareas desde la generación de diagnósticos potenciales hasta los diagnósticos finales y las opciones de gestión de la atención.
El estudio incluyó varias especialidades médicas y se llevó a cabo tanto en atención primaria como en entornos de emergencia.
l autor principal, Marc Succi, MD, expresó que el desempeño de ChatGPT era comparable al de un profesional médico recién graduado, destacando el potencial de los LLM para servir como herramientas efectivas en el ámbito de la medicina.
“No existen puntos de referencia reales, pero estimamos que este desempeño está al nivel de alguien que acaba de graduarse de la facultad de medicina, como un pasante o un residente. Esto nos dice que los LLM en general tienen el potencial de ser una herramienta de aumento para el práctica de la medicina y apoyar la toma de decisiones clínicas con una precisión impresionante”, dijo Succi en un comunicado .
A pesar de los rápidos avances en inteligencia artificial, aún no se ha explorado hasta qué punto los LLM pueden contribuir a la atención clínica integral.
Este estudio buscó investigar las capacidades de ChatGPT para asesorar y tomar decisiones clínicas en todo el encuentro con el paciente, incluidos los estudios de diagnóstico, el manejo clínico y los diagnósticos finales.
La investigación implicó presentar segmentos de escenarios clínicos estandarizados a ChatGPT, simulando interacciones con pacientes del mundo real. A ChatGPT se le asignó la tarea de generar diagnósticos diferenciales basados en la información inicial del paciente, seguido de tomar decisiones de gestión y llegar a un diagnóstico final a través de sucesivas iteraciones de entrada de datos.
Los investigadores descubrieron que la precisión de ChatGPT promedió alrededor del 72%, observándose su rendimiento más alto al realizar diagnósticos finales con un 77%. Sin embargo, su precisión fue menor en la realización de diagnósticos diferenciales (60%) y decisiones de manejo clínico (68%).
En particular, el estudio reveló que las respuestas de ChatGPT no demostraron prejuicios de género y que su desempeño fue consistente en escenarios de atención primaria y de emergencia.
Succi enfatizó que ChatGPT tuvo problemas con el diagnóstico diferencial, un aspecto esencial de la medicina que requiere determinar posibles cursos de acción cuando se enfrenta a información limitada del paciente. Señala las fortalezas de los médicos en las primeras etapas de la atención al paciente, donde es fundamental generar una lista de posibles diagnósticos.
ChatGPT en la práctica clínica
Los autores del estudio reconocen que es crucial realizar más investigaciones de referencia y orientación regulatoria antes de integrar herramientas como ChatGPT en la práctica clínica. El trabajo futuro del equipo tiene como objetivo explorar si las herramientas de IA pueden mejorar la atención al paciente en entornos sanitarios con recursos limitados.
Mass General Brigham, un sistema de salud académico integrado y una empresa de innovación, participa activamente en investigaciones rigurosas para incorporar responsablemente la IA en la prestación de atención, el apoyo a la fuerza laboral y los procesos administrativos.
El coautor Adam Landman, MD, MS, MIS, MHS, director de información y vicepresidente senior de Digital en Mass General Brigham, enfatizó la importancia de estudios exhaustivos como este para evaluar la precisión, confiabilidad, seguridad y equidad de las soluciones de IA. antes de su integración en la atención clínica.
“El general Brigham ve una gran promesa para que los LLM ayuden a mejorar la prestación de atención y la experiencia de los médicos”, dijo Landman en un comunicado. Los hallazgos del estudio fueron publicados en el Journal of Medical Internet Research.