Predicción de la enfermedad cardiovascular
Imagina que cada vez que finalizas una sesión de ejercicio sientes que tu corazón se desboca. Te mides el pulso. Tus latidos están a 160 pulsaciones por minuto. Un pensamiento acude rápidamente a tu mente: ¿estará bien mi corazón?
Las enfermedades cardiovasculares son una de las principales causas de muerte en todo el mundo. En España según datos del Informe de Mortalidad del Ministerio de Sanidad y Consumo, elaborado en 2016, las enfermedades del corazón son la segunda causa de mortalidad en España con el 20.1% de las defunciones que se producen en nuestro país.
El análisis estadístico ha identificado muchos factores de riesgo asociados con la enfermedad cardiovascular: la edad, la presión arterial, el colesterol total, la diabetes, la hipertensión, los antecedentes familiares de enfermedad cardíaca, obesidad, falta de ejercicio físico, etc.
En este post vamos a realizar con objetivo didáctico un análisis para estudiar cómo la frecuencia cardiaca máxima que se alcanza durante el ejercicio puede estar vinculada a una mayor probabilidad de contraer enfermedades cardiovasculares y, a continuación, construiremos un modelo de regresión logística que nos permita predecir el riesgo de enfermedad cardiovascular a 1 año. Ilustraremos las etapas típicas de un proyecto de minería de datos y veremos que nos permite extraer conclusiones interesantes.
Seguiremos de una forma muy resumida las etapas que se describen en nuestra guía Etapas de un Proyecto de Minería Datos.
Definición de la tarea de data mining
En este punto se trata de establecer cuál es el objetivo del proyecto de data mining. Nuestro objetivo es predecir a un año el riesgo de sufrir una enfermedad cardiovascular. Para ello vamos utilizar un modelo de regresión logística.
Los modelos de regresión logística son modelos con unas características muy interesantes en términos de comprensibilidad, facilidad de implementación e integración en los sistemas de información de una organización.
Origen de los datos
Lo ideal sería extraer los datos del data warehouse de tu organización. Pero como la tecnología aún no está lo suficientemente extendida en nuestros hospitales lo más probable es que extraigas la información del sistema de historia clínica electrónica (EHR) que haya implantado en tu centro.
Nosotros vamos a utilizar el Cleveland Dataset de enfermedades cardiovasculares que puedes descargar de la plataforma Kaggle.
El Cleveland Dataset está formado por 13 variables tal como se describe en la siguiente imagen:

La variable Class nos indica si el paciente ha sufrido o no de enfermedad cardiovascular.
Preparación de los datos
Una vez que disponemos de los datos hay que prepararlos para que podamos aplicar el método de construcción de modelo que hemos elegido. Esta fase aunque parezca sencilla, junto con la anterior, consume el 70% del tiempo de un proyecto de minería de datos.
Las técnicas habituales son: limpieza de datos, transformación de datos y reducción de la dimensionalidad.
Veamos un par de ejemplos de transformación de datos:
- Convertiremos la variable Sexo (Sex) en una variable categórica con valores “Female” y “Male”.
- Crearemos una nueva variable hd que nos indicará si hay presencia (1) o ausencia (0) de enfermedad cardíaca. Esta variable se crea a partir de la variable Class.
Una de las técnicas de reducción de dimensionalidad es la de selección de atributos. Trata de identificar cuáles son las variables significativas para la construcción del modelo.
Para ello realizaremos test chi-cuadrado para las variables categóricas y t-test para las variables continuas. Nos planteamos las siguientes cuestiones:
- ¿Tiene el sexo algún efecto?
- ¿Tiene la edad algún efecto?
- ¿Tiene el máximo pulso cardíaco alcanzado algún efecto?
El resultado de los test nos indica que las tres variables tienen efectos significativos en la presencia de enfermedad cardíaca.
A continuación vamos a realizar una exploración visual de la relación entre las variables anteriores y la presencia o no de enfermedad cardíaca:
Sexo Edad Frecuencia cardíaca máxima
La exploración visual y los test estadísticos indican que existe una relación significativa entre las tres variables y la presencia o no de enfermedad cardíaca (p<0.001).
Construcción del modelo
Procederemos a construir un modelo de regresión logística que nos determine qué efecto tiene el sexo, la edad y la frecuencia cardíaca máxima en la probabilidad de sufrir enfermedad cardíaca en el próximo año. Los resultados del modelo se muestran en la siguiente tabla:

Observamos que con un nivel de confianza del 95% el hecho de ser hombre está positivamente asociado con la presencia de enfermedad cardíaca y el valor de las pulsaciones máximas está negativamente asociado con la presencia de enfermedad cardíaca.
A continuación procederíamos a aplicar el modelo para calcular la probabilidad de que una persona sufra de enfermedad cardíaca y la transformaremos en una regla de uso clínico definiendo un valor umbral en la probabilidad de 0.5.
Evaluación del modelo
En primer lugar, revisaremos la exactitud del modelo que viene determinada por la proporción del número de predicciones que son correctas. Hay que tener en consideración que la exactitud puede no ser un buena métrica cuando la respuesta es rara (respuesta no balanceada). Otra medida muy habitual es AUC (Area Under ROC Curve) y, por último, la matriz de confusión.

Aunque nuestro modelo tiene una exactitud del 71% hay casos que no son clasificados correctamente como muestra la matriz de confusión.
El siguiente paso sería mejorar el modelo incluyendo variables explicativas adicionales. ¡Pero eso será en otro post!
Integración de los resultados en el proceso asistencial
Una vez conseguido un modelo con unos resultados adecuados se procedería a incluir el modelo como una herramienta en nuestro sistema de historia clínica electrónica de forma que nos generase una alerta sobre los pacientes con alta probabilidad de enfermedad cardiovascular a un año y pudiésemos tomar las medidas preventivas adecuadas.
Espero que te haya resultado interesante este ejemplo de análisis y minería de datos en salud. Hemos simplificado mucho el proceso pero aún así creo que hemos podido ilustrar la forma de trabajar en minería de datos.
Este tipo de modelos son los que construimos con nuestra solución Conectando Datos. Si tienes algún tipo de necesidad en este sentido no dudes en contactar conmigo.