El modelo de lenguaje amplio a menudo comete errores en las decisiones médicas.
(Crédito de la imagen: Marko Aliksandr vía Shutterstock)
Los diagnósticos médicos de ChatGPT son precisos menos de la mitad de las veces, revela un nuevo estudio.
Los científicos pidieron al chatbot de inteligencia artificial (IA) que evaluara 150 estudios de casos del sitio web médico Medscape y descubrieron que GPT 3.5 (que impulsó ChatGPT cuando se lanzó en 2022) solo brindaba un diagnóstico correcto el 49% de las veces.
Investigaciones anteriores demostraron que el chatbot podría aprobar el examen de licencia médica de los Estados Unidos (USMLE), un hallazgo aclamado por sus autores como «un hito notable en la maduración de la IA».
Pero en el nuevo estudio, publicado el 31 de julio en la revista PLOS ONE , los científicos advirtieron contra confiar en el chatbot para casos médicos complejos que requieren discernimiento humano.
«Si las personas están asustadas, confundidas o simplemente no pueden acceder a la atención médica, pueden depender de una herramienta que parece brindar asesoramiento médico ‘hecho a medida’ para ellas», dijo a Live Science el autor principal del estudio, el Dr. Amrit Kirpalani , médico en nefrología pediátrica en la Escuela de Medicina y Odontología Schulich de la Universidad Western, Ontario. «Creo que como comunidad médica (y entre la comunidad científica más amplia) debemos ser proactivos a la hora de educar a la población general sobre las limitaciones de estas herramientas en este sentido. No deberían reemplazar a su médico todavía».
La capacidad de ChatGPT para proporcionar información se basa en sus datos de entrenamiento. Extraídos del repositorio Common Crawl , los 570 gigabytes de datos de texto que se incorporaron al modelo 2022 suman aproximadamente 300 mil millones de palabras, que se obtuvieron de libros, artículos en línea, Wikipedia y otras páginas web.
Los sistemas de inteligencia artificial detectan patrones en las palabras con las que fueron entrenados para predecir lo que puede suceder después, lo que les permite proporcionar una respuesta a una pregunta o indicación. En teoría, esto los hace útiles tanto para estudiantes de medicina como para pacientes que buscan respuestas simplificadas a preguntas médicas complejas, pero la tendencia de los robots a «alucinar» ( inventar respuestas por completo ) limita su utilidad en los diagnósticos médicos.
Para evaluar la precisión de los consejos médicos de ChatGPT, los investigadores presentaron al modelo 150 estudios de casos variados (que incluían antecedentes del paciente, hallazgos de exámenes físicos e imágenes tomadas en el laboratorio) que tenían como objetivo desafiar las habilidades de diagnóstico de los médicos en formación. El chatbot eligió uno de cuatro resultados de opción múltiple antes de responder con su diagnóstico y un plan de tratamiento que los investigadores calificaron por su precisión y claridad.
Los resultados fueron mediocres: ChatGPT obtuvo más respuestas incorrectas que correctas en cuanto a precisión médica, mientras que brindó resultados completos y relevantes el 52 % de las veces. No obstante, la precisión general del chatbot fue mucho mayor (74 %), lo que significa que pudo identificar y descartar respuestas de opción múltiple incorrectas de manera mucho más confiable.
Los investigadores dijeron que una razón para este pobre desempeño podría ser que la IA no fue entrenada con un conjunto de datos clínicos lo suficientemente grande, lo que la hace incapaz de hacer malabarismos con los resultados de múltiples pruebas y evitar lidiar con absolutos tan efectivamente como los médicos humanos.
A pesar de sus deficiencias, los investigadores dijeron que la IA y los chatbots aún podrían ser útiles para enseñar a los pacientes y a los médicos en formación, siempre que los sistemas de IA estén supervisados y sus declaraciones estén acompañadas de una verificación de datos saludable.
«Si nos remontamos a las publicaciones de revistas médicas de alrededor de 1995, podemos ver que se estaba dando exactamente el mismo discurso con ‘la World Wide Web’. Había nuevas publicaciones sobre casos de uso interesantes y también había artículos que eran escépticos sobre si esto era solo una moda», dijo Kirpalani. «Creo que con la IA y los chatbots específicamente, la comunidad médica finalmente descubrirá que existe un enorme potencial para aumentar la toma de decisiones clínicas, agilizar las tareas administrativas y mejorar la participación de los pacientes».
https://www.livescience.com/technology/artificial-intelligence/chatgpt-less-accurate-than-a-coin-toss-at-medical-diagnosis-new-study-finds