Colaboración humano-IA en diagnóstico médico

La visión competitiva de la IA en diagnóstico médico está evolucionando hacia una aproximación más prometedora basada en la cooperación humano-IA. ¿Qué impacto puede tener esta colaboración en la prestación del servicio y en la calidad de la atención?

¿Qué hay de nuevo?

Un estudio de un equipo de la Medical University of Vienna liderado por Philipp Tschandl y publicado en Nature Medicine ha evaluado cómo influye la forma de presentar la decisión de la IA a clínicos con diferente grado de experiencia e inmersos en distintos flujos de trabajo.  Se ha tomado como caso de uso el diagnóstico del cáncer de piel.

Idea clave

Bajo la condiciones adecuadas la colaboración humano-IA en el diagnóstico médico mejora la exactitud en el diagnóstico.

¿Cómo funciona?

Para evaluar el impacto de las diferentes representaciones de una IA en la exactitud diagnóstica de clínicos bajo diferentes escenarios se entrenó una ResNet34, un tipo particular de red neuronal convolucional (CNN), con el conjunto de entrenamiento de un banco de imágenes público de lesiones de la piel que contiene siete categorías diagnósticas.

  • En primer lugar, se evaluó el rendimiento de la red en solitario con el conjunto de imágenes de referencia resultando una sensibilidad del 77.7% y una exactitud del 80.3%. Lo que supera a la mayoría de los clasificadores humanos y se sitúa en el cuartil superior de los algoritmos probados con el mismo banco de imágenes.
  • A continuación, se evaluó cómo la forma en la que se presentan los resultados de la red neuronal influye en la colaboración humano-IA. Para ello se desarrolló un interfaz web para la presentación de los resultados en tres formas distintas: probabilidades multiclase, probabilidad de malignidad y presentación de imágenes similares con diagnóstico conocido. Se enroló a 302 participantes (169 dermatólogos experimentados, 77 dermatólogos residentes y 38 médicos no especialistas) y se les pidió, primero, que diagnosticasen las imágenes sin ningún sistema de apoyo y, posteriormente, con la colaboración de la IA.
  • Posteriormente, se exploró el impacto del apoyo al diagnóstico basado en IA sobre la exactitud diagnóstica del médico. Se observó una mejora neta en la exactitud diagnóstica. Siendo ésta mayor para los médicos no experimentados.
  • A continuación, se exploró el impacto de una IA defectuosa en la exactitud diagnóstica. Se comprobó que todos los grupos de médicos se desempeñaron por debajo de su habilidad en este escenario.

Resultados

Se observó que la presentación de los resultados de la red neuronal en forma de probabilidades multiclase mejora la exactitud en el diagnóstico de 63.6% a 77% y no se observó mejora con las otras dos forma de presentación. Se mostró una relación inversa entre ganancia neta en la exactitud diagnóstica y la experiencia del médico. Los médicos con menor experiencia cambian su diagnóstico con mayor frecuencia (26%) que los más experimentados (14.7%). Los médicos más experimentados no cambian de  criterio si confían en su diagnóstico. Se muestra que los beneficios de la colaboración no se distribuyen de forma simétrica entre todas las categorías diagnósticas. También se mostró la influencia de la distribución de probabilidades en el comportamiento de los médicos

¿Por qué importa?

La forma en la que se diseñe la colaboración entre el humano y la IA puede ser determinante para conseguir una mejora en la atención.

La forma de presentar los resultados debe estar alineada con la tarea concreta de diagnóstico. La experiencia y confianza del médico en su diagnóstico inicial determinará su permeabilidad a la decisión de la IA. Colaborar con una IA defectuosa o no correctamente calibrada podría generar resultados inferiores a los del médico diagnosticando de forma independiente

Pensamos

Es necesario estudiar profundamente el escenario de colaboración humano-IA en diagnóstico médico, lo que sólo se puede conseguir en condiciones de práctica clínica real.