Introducción
Las aplicaciones de los métodos de deep learning en tareas de imagen y su capacidad para ayudar en la interpretación y clasificación de las mismas ha despertado un gran interés en la comunidad científica de imagen médica.
En este post nos vamos a centrar en uno de los avances más llamativos de los últimos años y sus potenciales aplicaciones en imagen médica: las redes generativas antagónicas conocidas como GAN.
Las GAN son un tipo especial de modelo de redes neuronales en las que dos redes neuronales son entrenadas de forma simultánea. Una con el objetivo de generar una imagen y la otra con el foco en la discriminación. El planteamiento de entrenamiento antagonico es interesante debido a su capacidad para generar nuevas muestras de imágenes. Este esquema ha conseguido un rendimiento importante en tareas de imagen como super solución, traslación imagen-a-imagen y síntesis texto-imagen.
La idea tras las GAN es la de generar muestras (imágenes) con una distribución determinada sin necesidad de explicar al modelo la función densidad de probabilidad subyacente. Consiste en dos redes neuronales, el generador y el discriminador. La entrada del generador es ruido aleatorio y su salida espera ser una muestra con similitud visual a la muestra de imagen real proporcionada. La salida del discriminador es un número entre 0 y 1 que nos indica la probabilidad de que la muestra creada por el generador sea real o falsa. El objetivo del discriminador es diferenciar las imágenes reales de las falsas mientras que el objetivo del generador es engañar al discriminador. Un ejemplo sería que proporcionamos a la GAN imágenes reales de nódulos pulmonares en radiografía de tórax y la GAN nos genera imágenes sintéticas de nódulos pulmonares.
Aplicaciones en imagen médica
Hay dos usos principales de aplicación de las GAN en imagen médica. El primero se centra en su capacidad generativa y su objetivo es generar muestras sintéticas con la misma estructura subyacente que las imágenes de referencia. Esta aproximación es muy interesante para afrontar los problemas de escasez de imágenes etiquetadas y las cuestiones de privacidad de datos. El segundo es utilizar su capacidad discriminativa para detectar anomalías en la imagen. Si hemos entrenado la GAN con imágenes sin patología se podría utilizar su capacidad discriminativa para identificar imágenes anormales.
Estos usos se pueden dividir en las siguiente categorías: reconstrucción, síntesis de imágenes, clasificación, detección y registro.
Reconstrucción
Las restricciones existentes en el entorno clínico, como la dosis de radiación o la comodidad del paciente, limitan la calidad de las imágenes adquiridas. En los últimos años se ha venido aplicando las técnicas de machine learning al proceso de reconstrucción de imágenes, formulando el problema como una traslación imagen-a-imagen. Las GAC condicionales permiten imponer condiciones a su entrada de forma que la imagen generada las cumpla. Este sistema permite generar sistemas capaces de transformar una imagen con ruido, por ejemplo, una tomografía computarizada (CT) a una imagen CT sin ruido.
Síntesis de imágenes médicas
La síntesis de imágenes médicas nos permite afrontar los problemas de privacidad y de consentimiento informado para el uso de imágenes de pacientes en investigación así como la falta de suficiente número de imágenes etiquetadas en determinadas patologías. Las GAN ofrecen una solución genérica para el aumento de imágenes en el entrenamiento de modelos con resultados muy prometedores.
Entre los métodos de síntesis tendríamos:
- Síntesis no condicional: se refiere a la síntesis de una imagen a partir de ruido aleatorio sin ninguna restricción. Las muestras generadas se pueden utilizar para entrenar clasificadores junto con las reales con el objetivo de mejorar la sensibilidad y especificidad de los mismos.
- Síntesis intermodalidad: por ejemplo, generar una imagen de resonancia magnética (MR) a partir de una CT. El objetivo es reducir tiempo y coste. También se aplica para generar nuevas muestras de entrenamiento con la estructuras adaptadas a la nueva modalidad.
Segmentación
Las GAN permiten superar algunas de las limitaciones de las técnicas basadas en funciones de pérdida de bajo nivel que no garantizan la coherencia espacial de la segmentación resultante o ofrecen resultados pobres en regiones de bajo contraste.
Clasificación
Las GAN se han usado también con éxito en las tareas de clasificación, utilizándose como generador de características o el discriminador como un clasificador. La ventajas que muestran los estudios es que se obtiene un rendimiento similar que con las redes convolucionales tradicionales pero con necesidad de un número menor de datos etiquetados. También se ha observado que son más robustas al sobreaprendizaje.
Detección
El discriminador de una GAN se puede utilizar para detectar anormalidades como lesiones al aprender la distribución de probabilidad de imágenes de entrenamiento sin patología. Esta aproximación ha mostrado los mismos resultados que el estado del arte en detección de anomalías para algunas patologías estudiadas.
Registro de imágenes
Las GAN también se pueden utilizar para el registro de imágenes multimodales o unimodales. En este caso el generador puede generar los parámetros del registro o directamente la imagen transformada. Los estudios muestran un rendimiento similar a los métodos tradicionales.
Presente y futuro de las GAN
La mitad de los estudios publicados sobre GAN en imagen médica están relacionados con la síntesis de imágenes, siendo la síntesis intermodalidad la aplicación con más interés de las GAN en la literatura. Una de las aplicaciones potenciales con más interés es la reducción de tiempo en la adquisición de resonancia magnética (MR). Las GAN ofrecen la posibilidad de reducir el tiempo de adquisición en MR generando nuevas secuencias a partir de las adquiridas.
El segundo grupo de interés según la literatura se muestra en el binomio reconstrucción/segmentación, debido a la popularidad de los frameworks para traslación imagen-a-imagen. Por ejemplo, en segmentación hepática a partir de volúmenes ·3D de CT los estudios muestran que se mejoran los resultados para CT sin contraste.
El resto de los estudios se centra en técnicas de clasificación y aumento de datos para enfermedades con escasa representación en los conjuntos de datos disponibles.
Desafíos
Aunque con muchas aplicaciones positivas de las GAN en imagen médica aún quedan por delante importantes desafíos que debemos resolver para su aplicación efectiva en el entorno clínico. Por ejemplo, en reconstrucción y en síntesis de imágenes intermodalidad las GAN utilizan métricas de bajo nivel como MAE o PSNR para la evaluación cuantitativa pero que no nos dicen nada de la calidad visual de la imagen. Se están desarrollando nuevas métricas que nos informen sobre la calidad de la imagen desde el punto de vista del juicio de un ser humano.
En el caso de traslación imagen-a-imagen, algunas técnicas no garantizan que se trasladen las pequeñas anormalidades a la imagen de destino lo que supone un riesgo para su uso diagnóstico médico, existiendo la posibilidad de un uso malicioso, por ejemplo, añadiendo o eliminando un nódulo pulmonar solitario en una imagen CT.
Futuro
Las aplicaciones que hemos visto están relacionadas con la mejora en los flujos de imagen médica o atención al paciente. Pero la verdadera fortaleza de las GAN están en su capacidad para el aprendizaje no supervisado o débilmente supervisado. La capacidad de traslación imagen-a-imagen que ofrecen las GAN tienen otras aplicaciones útiles como:
- Generación semiautomática de informes radiológicos.
- Eliminación de artefactos o dispositivos implantados para mejorar la visualización.
- Síntesis de imagen a partir de una descripción textual.
Las GAN aún están lejos de su adopción generalizada en imagen médica pero hemos de seguirlas de cerca pues sus potenciales aplicaciones son muy interesantes.