Un nuevo estudio dirigido por investigadores e investigadoras del Mass General Brigham, en Estados Unidos, ha descubierto que ChatGPT tiene una precisión del 72% en la toma de decisiones clínicas en general, desde la formulación de posibles diagnósticos hasta la toma de diagnósticos finales y decisiones sobre la gestión de los cuidados.

El chatbot de inteligencia artificial con modelo de lenguaje amplio (LLM) funcionó igual de bien tanto en atención primaria como en urgencias y en todas las especialidades médicas, según publican en el 'Journal of Medical Internet Research (1).

Nuestro estudio evalúa de forma exhaustiva el apoyo a la toma de decisiones a través de ChatGPT desde el inicio del trabajo con un paciente y a lo largo de todo el escenario asistencial, desde el diagnóstico diferencial hasta las pruebas, el diagnóstico y el tratamiento

MARC SUCCI, investigador del Mass General Brigham

"Nuestro estudio evalúa de forma exhaustiva el apoyo a la toma de decisiones a través de ChatGPT desde el inicio del trabajo con un paciente y a lo largo de todo el escenario asistencial, desde el diagnóstico diferencial hasta las pruebas, el diagnóstico y el tratamiento", explica el autor Marc Succi, director asociado de innovación y comercialización y líder de innovación estratégica en el Mass General Brigham y director ejecutivo de la Incubadora MESH.

 

Nivel de alguien que acaba de graduarse en la facultad de medicina

 

"No existen puntos de referencia reales, pero estimamos que este rendimiento está al nivel de alguien que acaba de graduarse en la facultad de medicina, como un interno o un residente --añade--. Esto nos dice que los LLM en general tienen el potencial de ser una herramienta de aumento para la práctica de la medicina y apoyar la toma de decisiones clínicas con una precisión impresionante".

Los cambios en la tecnología de inteligencia artificial se están produciendo a gran velocidad y están transformando muchas industrias, incluida la sanitaria

Los cambios en la tecnología de inteligencia artificial se están produciendo a gran velocidad y están transformando muchas industrias, incluida la sanitaria, pero aún no se ha estudiado la capacidad de las LLM para ayudar en todo el ámbito de la atención clínica.

En este estudio exhaustivo y multiespecialidad sobre cómo podrían utilizarse los LLM en el asesoramiento clínico y la toma de decisiones, Succi y su equipo probaron la hipótesis de que ChatGPT sería capaz de trabajar a lo largo de todo un encuentro clínico con un paciente y recomendar una prueba diagnóstica, decidir el curso de tratamiento clínico y, en última instancia, realizar el diagnóstico final.

El estudio se realizó pegando en ChatGPT partes sucesivas de 36 viñetas clínicas estandarizadas y publicadas. En primer lugar, se pidió a la herramienta que propusiera una serie de diagnósticos posibles o diferenciales basados en la información inicial del paciente, que incluía la edad, el sexo, los síntomas y si se trataba de una urgencia.

A continuación, ChatGPT recibía información adicional y se le pedía que tomara decisiones de tratamiento y diera un diagnóstico final, simulando todo el proceso de atención a un paciente real.

El equipo comparó la precisión de ChatGPT en el diagnóstico diferencial, las pruebas diagnósticas, el diagnóstico final y el tratamiento en un proceso ciego estructurado, otorgando puntos por las respuestas correctas y utilizando regresiones lineales para evaluar la relación entre el rendimiento de ChatGPT y la información demográfica de la viñeta.

ChatGPT tuvo problemas con el diagnóstico diferencial, que es el meollo de la medicina cuando un médico tiene que averiguar qué hacer

Los investigadores descubrieron que, en general, ChatGPT tenía una precisión del 72% y que su mejor resultado era el diagnóstico final, con una precisión del 77%. Su rendimiento más bajo fue en el diagnóstico diferencial, con una precisión del 60%. Y sólo tuvo un 68% de precisión en las decisiones de gestión clínica, como determinar con qué medicamentos tratar al paciente tras llegar al diagnóstico correcto.

 

No mostraban sesgo de género

 

Además, las respuestas de ChatGPT no mostraban sesgo de género y que su rendimiento general era estable tanto en atención primaria como en urgencias.

"ChatGPT tuvo problemas con el diagnóstico diferencial, que es el meollo de la medicina cuando un médico tiene que averiguar qué hacer --apunta Succi--. Esto es importante porque nos dice dónde son realmente expertos los médicos y dónde aportan más valor: en las primeras fases de la atención al paciente, con poca información, cuando se necesita una lista de posibles diagnósticos".

Los autores señalan que antes de que herramientas como ChatGPT puedan considerarse para su integración en la atención clínica, se necesita más investigación de referencia y orientación normativa. Ahora, el equipo de Succi está estudiando si las herramientas de IA pueden mejorar la atención al paciente y los resultados en las zonas de recursos limitados de los hospitales.

Referencias