Data mining

Data mining y big data en salud. ¿Pero qué es todo esto?

Si eres profesional o investigador de una organización de salud estoy seguro de que habrás escuchado o leído más de una vez sobre el potencial del big data en salud. Hoy en día todo el mundo habla de big data, pero es importante situar este concepto en el contexto adecuado pues no toda aproximación al análisis de datos sería big data ni requiere una infraestructura big data.

Minería de datos o data mining

Se puede definir la minería de datos como “el proceso de analizar datos provenientes de distintas fuentes informacionales con el objetivo de extraer información y conocimiento útil”.

Varios aspectos a considerar:

  • La información y conocimiento que se extrae no es previamente conocido. Es decir son patrones, tendencias y relaciones subyacentes en los datos pero que no son fácilmente detectable con técnicas de consulta tradicionales.
  • Útil en relación con los objetivos de negocio previamente establecidos.
  • Por información entendemos asociaciones, relaciones y estadísticas básicas.
  • Por conocimiento entendemos patrones en los datos (grupos, clases, asociaciones) y capacidad predictiva (clasificación y regresión).

Ejemplos de actividades de minería de datos sería el de segmentar los pacientes del hospital en grupos con características homogéneas, clasificación del paciente en base al riesgo de reingreso o riesgo de reacción adversa a la medicación, o predecir la demanda de urgencias para cada día y hora del año.

Datos masivos  o big data

Este concepto surge, a principios de siglo, en el entorno de las ciencias, en particular, con el proyecto genoma humano que tenía como objetivo encontrar, secuenciar y elaborar mapas genéticos y físicos de gran resolución del ADN humano. El genoma de una persona es del orden de los 100 Gb.

Por otro lado, desde mediados de la primera década del siglo XXI la explosión de datos ha sido espectacular. El número de dispositivos conectados a internet junto con el auge de las redes sociales han provocado una avalancha datos disponibles. Pero los datos por sí solos no tienen valor, el valor se extrae de su análisis  e interpretación. Lo que conllevó el desarrollo de tecnologías con capacidad de procesar un volumen elevado de datos de forma eficiente. En este sentido se tuvo que considerar:

  • Con un volumen de datos elevado no es posible el procesado por un único ordenador por lo que era necesario el desarrollo de tecnologías que permitiesen a varios ordenadores colaborar conjuntamente y forma coordinada  en las tareas de procesado (lo que se conoce con procesamiento distribuido).
  • Los datos son heterogéneos y requieren de nuevas tecnologías de almacenamiento que faciliten su consulta y procesamiento. Estamos pensando en ser capaces de procesar información estructurada que nos facilita nuestro HIS junto con información en forma de documento (informe de alta), imágenes (un TAC o una radiografía) o un tuit del paciente en las redes sociales. Se desarrollaron nuevas formas de almacenamiento y recuperación de la información (bases de datos NoSQL).
  • Capacidad de procesamiento de los datos de forma rápida. Para lo cual se sigue la estrategia de dividir el problema en problemas más pequeños y de menor complejidad que se procesan de forma paralela y luego se combina el resultado (técnica MapReduce).

En este sentido se podría definir big data como “las tecnologías, técnicas y metodologías relacionadas con el procesamiento de grandes y heterogéneos volúmenes de datos”. Un entorno big data se caracteriza por satisfacer las 4Vs: velocidad, volumen, variedad y veracidad:

  • Variedad de formatos y estructuras en las que están presente los datos.
  • Velocidad de carga y procesamiento de datos.
  • Volumen de datos superior al que los sistemas corporativos tradicionales se sienten cómodos.
  • Veracidad en el sentido de que los sistemas big data deben tolerar cierto grado de incertidumbre.

Ejemplo de actividades de big data sería la de consultar las redes sociales para conocer la opinión que tienen los pacientes y público en generar sobre nuestro centro sanitario (lo que se conoce como un análisis de sentimiento).

Recapitulando podríamos decir que el objetivo del data mining es la extracción del conocimiento (análisis de datos) y el del big data es la manipulación (ingeniería de datos).