Ernesto permanece sentado en su despacho con la mirada perdida mientras la penumbra se apodera de la estancia. Hoy es su último día de trabajo. Suena el teléfono y con un movimiento brusco se recupera en la silla frente al monitor. Observa lo que ha sido su vida. Buscar patrones en los tonos de gris. Hoy ya nadie lo hace. Para eso están las máquinas dicen. Ernesto es el último radiólogo.
Aunque Ernesto es un personaje ficticio, diariamente nos enfrentamos a titulares en múltiples medios que señalan la capacidad de la inteligencia artificial para superar a los clínicos en sus actividades de diagnóstico. Por ejemplo, en 2018 la revista Fortune publicaba que la IA era capaz de diagnosticar el cáncer de piel mejor que los médicos. En 2019, un artículo en The Telegraph se hacía eco de la afirmación de Google que podía detectar el cáncer de pulmón un año antes que los médicos.
¿Hasta qué punto son fiables estas afirmaciones? ¿Hasta qué punto reflejan la realidad actual de la inteligencia artificial en la práctica clínica?
Un reciente estudio publicado en thebmj[1] nos ofrece una visión muy distinta sobre estas afirmaciones. Se seleccionaron para revisión sistemática 91 estudios publicados en inglés que comparaban el rendimiento de un algoritmo deep learning en imagen médica con un grupo de uno o más expertos clínicos.
¿Qué aporta?
Una visión de los estándares actuales de la investigación en deep learning para aplicaciones en imagen médica. Describe las características de los estudios y evalúa: métodos, calidad y transparencia.
Aspecto relevante
Sólo un 10.99% de los estudios revisados se basan en un ensayo clínico aleatorizado.
De los cuales son hay 2 finalizados y con resultados publicados en 2019. El resto se encuentran en fase de reclutamiento (3) o previas (5).
De los dos estudios finalizados:
- El primer ensayo contempló a 350 pacientes pediátricos que asistieron a clínicas oftalmológicas en China. Los pacientes fueron sometidos a una evaluación de cataratas con y sin una plataforma basada en IA para diagnóstico y recomendación de tratamiento. Los resultados obtenidos por el sistema basado en IA fueron significativamente más bajos que la precisión del diagnóstico (99%, sensibilidad 98%, especificidad 99.6%) y recomendación de tratamiento (97%, sensibilidad 95%, especificidad 100%) por clínicos expertos (p <0.001 para ambos).
- El segundo ensayo contempló a 1058 pacientes que se sometieron a una colonoscopia con o sin la asistencia de un sistema automático de detección de pólipos en tiempo real. Los autores informaron que el sistema de detección resultó en un significativo aumento en la tasa de detección de adenoma (29% v 20%, p <0.001), y un aumento en el número de pólipos hiperplásicos identificados (114 v 52, p <0.001).
Hallazgos
Los autores señalan 5 hallazgos clave como resultado del estudio:
- Pocos ensayos clínicos aleatorizados realizados en la aplicación del deep learning a la imagen médica. El ensayo clínico aleatorizado es el “gold standard” en investigación médica en la actualidad y como tal debería también aplicarse la evaluación de los sistemas basados en inteligencia artificial que se utilice en tareas de diagnóstico clínico.
- De los 81 estudios sin aleatorización sólo 9 fueron prospectivos y sólo 6 se llevaron a cabo en práctica clínica real. Una comparación más justa entre el rendimiento de los sistemas de IA y los clínicos requiere de un ensayo clínico o un estudio prospectivo amplio que garantice adicionalmente la robustez funcional del sistema.
- La disponibilidad limitada de los conjuntos de datos y código hace difícil evaluar la reproducibilidad de la investigación en deep learning. Los estudios deberían describir el hardware utilizado y compartir código y conjuntos de datos de forma que la investigación sea reproducible.
- El número de humanos en el grupo de comparación era relativamente bajo con una mediana de 4 expertos. Son necesarias muestras mayores para asegurar la fiabilidad y deben estar constituidas por expertos. Si la comparativa se hace con perfiles en formación, recién graduados o no experto se debe explicitar en el artículo.
- Frases descriptivas que señalan un rendimiento similar o superior al humano aparecen en muchos de los resúmenes de los estudios (abstracts) a pesar de que los estudios presentan deficiencias en diseño, informes, transparencia o riesgo de sesgo. Por ejemplo, la necesidad de estudios adicionales prospectivos casi no se menciona en el resumen y no se menciona en absoluto en 23 de los estudios que manifestaron un rendimiento de la IA superior al médico. Dos tercios de los estudios no señalan la necesidad de estudios prospectivos o ensayos clínicos adicionales para contrastar los resultados obtenidos.
¿Por qué importa?
Porque nos sugiere que los estudios sobre el uso de la inteligencia artificial en medicina deben mejorar en calidad para disminuir el sesgo y ser relevantes para la toma de decisiones en la práctica clínica real. Se debe hacer hincapié en el diseño del estudio, el rigor y la adecuación a estándares en la presentación de los resultados, la transparencia y una moderación en las conclusiones que generen las expectativas correctas sobre el uso actual de la inteligencia artificial.
Pensamos que
Es muy importante una alfabetización de los profesionales y directivos sanitarios en la realidad de la inteligencia artificial en medicina. Deben saber discriminar qué puede y qué no puede hacer la inteligencia artificial en la actualidad y qué criterios se deben cumplir para integrar un sistema basado en inteligencia artificial en la práctica clínica.
Los autores de los estudios deben señalar explícitamente cuáles son las limitaciones de los mismos y qué estudios adicionales son necesarios para obtener conclusiones significativas sobre el potencial uso de la inteligencia artificial en medicina. Han de ser muy cuidadosos con el lenguaje que se utiliza pues un optimismo exagerado puede ocasionar una interpretación inadecuada de la realidad de esta tecnología por los medios y el público.
Los medios deben huir del titular
fácil y presentar la realidad actual de la inteligencia artificial en medicina con
el objeto de atemperar las expectativas de la población y hacerlas más acordes
a lo que señala la evidencia científica.
[1] Nagendran Myura, Chen Yang, Lovejoy Christopher A, Gordon Anthony C, Komorowski Matthieu, Harvey Hugh et al. Artificial intelligence versus clinicians: systematic review of design, reporting standards, and claims of deep learning studies BMJ 2020; 368 :m689