La inteligencia artificial puede ser tan efectiva, emitiendo diagnósticos, como los médicos

La revista médica The Lancet Digital Health ha publicado un informe en el que establece que la Inteligencia Artificial (IA) puede detectar enfermedades y emitir diagnósticos con una precisión similar a los profesionales de la salud.

 

El informe puntualiza, no obstante,  que sólo unos pocos estudios tuvieron la calidad suficiente como para ser incluidos en los análisis y que el poder de la IA sigue siendo incierto. Así, los investigadores exigen estándares más altos de investigación e informes para mejorar las evaluaciones futuras.

 

«Revisamos más de 20.500 artículos, pero menos del 1 por ciento de ellos eran lo suficientemente sólidos en su diseño e información como para que los revisores independientes tuvieran una gran confianza en sus afirmaciones. Además, solo 25 estudios validaron los modelos de IA externamente (usando imágenes médicas de una población diferente), y apenas 14 estudios compararon en realidad el rendimiento del IA y de los profesionales de la salud usando la misma muestra de prueba», ha indicado el profesor Alastair Denniston, de University Hospitals Birmingham NHS Foundation Trust (Reino Unido), quien dirigió la investigación.

 

Dentro de esos pocos de estudios de alta calidad, encontraron que el ‘deep learning’ podría, de hecho, detectar enfermedades que van desde cánceres hasta enfermedades oculares con la misma precisión que los profesionales. «Pero es importante resaltar que la IA no superó sustancialmente el diagnóstico humano», incide Denniston.

 

Con el ‘deep learning’, las computadoras pueden examinar miles de imágenes médicas para identificar patrones de enfermedad. Esto ofrece un enorme potencial para mejorar la precisión y la velocidad del diagnóstico. Los informes de modelos de ‘deep learning’ que superan a los humanos en las pruebas de diagnóstico han generado mucho entusiasmo y debate, y más de 30 algoritmos de IA para la atención sanitaria ya han sido aprobados por la Administración de Alimentos y Medicamentos de Estados Unidos (FDA, por sus siglas en inglés).

 

El tema sigue siendo incierto debido a la falta de estudios que comparen directamente el rendimiento de humanos y máquinas, o que validen el rendimiento de la IA en entornos clínicos reales.

 

¿De dónde han salido los datos?

En total, se incluyeron 82 artículos en la revisión sistemática. Se analizaron los datos de 69 artículos que contenían información suficiente para calcular con precisión el rendimiento de la prueba. En el meta análisis se incluyeron las estimaciones agrupadas de 25 artículos que validaron los resultados en un subconjunto independiente de imágenes.

 

El análisis de los datos de 14 estudios que compararon el rendimiento del ‘deep learning’ con humanos en la misma muestra encontró que, en el mejor de los casos, los algoritmos pueden detectar correctamente la enfermedad en el 87 por ciento de los casos, en comparación con el 86 por ciento logrado por los profesionales de la salud.

 

La capacidad de excluir con precisión a los pacientes que no tienen enfermedad también fue similar para los algoritmos de ‘deep learning’ (93% de especificidad), en comparación con los profesionales de la salud (91%).

 

Los autores precisan que existen varias limitaciones en la metodología y el informe de los estudios de diagnóstico de la IA incluidos en el análisis. Con frecuencia, el ‘deep learning’ se evaluó de forma aislada de manera que no reflejara la práctica clínica.

 

Además, se realizaron pocos estudios prospectivos en entornos clínicos reales, y los autores dicen que para determinar la precisión diagnóstica se requieren comparaciones de alta calidad en pacientes, no solo conjuntos de datos.

Dejar un comentario