Análisis de los datos del COVID-19 en España con R (V)

Esta serie de artículos conforman una exploración didáctica de los datos del COVID-19 en España y pretende mostrar las capacidades para el estudio epidemiológico que ofrece R.

En ningún momento se debe considerar como un informe de situación de la epidemia en España ni un pronóstico de su evolución. Para ello se recomienda consultar los datos y previsiones comunicados por el Ministerio de Sanidad y organismos internacionales (ECDC).

Modelado de la epidemia de COVID-19 en España

R ofrece funcionalidades para ajustar un modelo logarítmico lineal a los datos observados de incidencia de COVID-19 en España. Esto nos permite estimar el número básico de reproducción R0  o la tasa de crecimiento r y el número de reproducción básico de la epidemia.

Adquisición de datos

Los datos se han obtenido de las notas actualización diaria de enfermedad por SARS-CoV-2 (COVID-19) que publica el Ministerio de Sanidad en su página web. Se ha considerado para este trabajo las notas publicadas a partir del 05 de marzo de 2020 (actualización nº 37) hasta el 23 de marzo de 2020 (actualización nº 53, datos  consolidados a las 21:00 horas del 22/03/2020).

Se trata de un resumen epidemiológico de casos confirmados notificados publicado diariamente a las 13:00 horas. A partir del 05 de marzo se incluyen datos detallados por comunidad autónoma.

Análisis de datos exploratorio

Incidencia acumulada diaria

En primer lugar mostraremos el número acumulado de casos confirmados notificados para toda España y para cada una de las comunidades autónomas.

Se observa un crecimiento aproximadamente exponencial típico de la propagación de una epidemia. Si representamos los datos en una escala logarítmica obtenemos una curva de crecimiento  lineal que confirma el crecimiento exponencial. Se observa un descenso en la pendiente de la recta a partir del día 15 de Marzo.

Incidencia diaria

Los datos proporcionados por el Ministerio de Sanidad son acumulados. Para obtener la curva epidemiológica necesitaremos la incidencia diaria. La calcularemos a partir de los datos acumulados diarios.

Se han filtrado los datos anteriores al día 10/03/2020 pues no se disponía de las notas actualizadas de los días 06/03, 07/03 y 08/03.

Con los datos disponibles a fecha de 23/03/2020 (consolidados el día 22/03/2020 a las 21:00 horas) es prematuro extraer ninguna conclusión sobre la evolución de la incidencia diaria. Hay que seguir pendiente de ver cómo evolucionan los datos.

A continuación se mostrará la evolución de la incidencia acumulada en las distintas comunidades autónomas:

Las tres comunidades con mayor incidencia de casos son: Madrid, Cataluña y País Vasco. A continuación le siguen Castilla La Mancha, Castilla y León, Andalucía y Comunidad Valenciana.

Las comunidades con menor incidencia son: Ceuta, Melilla, Murcia y Cantabria.

Fallecidos en los casos notificados confirmados

Visualizaremos el número de fallecidos diarios y acumulados en toda España.

Como se observa la tendencia de mortalidad de la epidemia sigue en crecimiento.

A continuación mostraremos la evolución del número de fallecimientos acumulado por comunidad autónoma:

Las comunidades con mayor número de fallecimientos son Madrid, Cataluña y Castilla La Mancha. Las comunidades de Ceuta (0), Melilla (0) y Murcia (2) y Cantabria (5) son las que presentan un menor número de fallecimientos notificados.

Distribución por grupos de edad

A partir del día 22/03/2020 el Ministerio de Sanidad ha incluido información por grupos de edad en su nota informativa. Hay que señalar que los datos corresponden únicamente a un subconjunto de 18.959 casos notificados de los que se dispone de información de edad.

La distribución por grupos de edad sería la siguiente para número acumulado de casos, ingresos hospitalarios y mortalidad.

Ajustando un modelo logarítmico-lineal

Como hemos visto anteriormente la epidemia en su fase de crecimiento presenta un comportamiento exponencial para la incidencia diaria acumulada. Por lo tanto podríamos ajustar un modelo exponencial a esta fase de la epidemia. O si tomamos el logaritmo de la incidencia acumulada diaria el modelo a ajustar sería un modelo lineal. Este ajuste nos permite calcular la tasa de crecimiento de la epidemia.

Usaremos el paquete incidence de la herramienta R para el ajuste del modelo.

El modelo nos permite calcular la tasa de crecimiento r = 0,26 (IC 95% 0,24-0,29). Esta tasa de crecimiento es equivalente a un tiempo de duplicación de 2,62 días (IC 95% 2,39-2,92). Es decir cada 2,62 días se  duplica el número de casos si se sigue con esa tasa de crecimiento.  La tasa de crecimiento es significativamente inferior a la calculada en nuestro post del día 18/03/2020 (r=0,33). Según el modelo la tasa de crecimiento de la epidemia estaría disminuyendo.

Calculando el número de reproducción básico R0

A continuación veremos cómo el modelo logarítmico lineal nos permite calcular el número de reproducción básico de la epidemia en su fase de crecimiento.

La transmisibilidad de un virus viene determinada por el número de reproducción, R, que mide el número promedio de nuevas infecciones generadas por cada persona infectada. Si R>1 la epidemia se automantiene a menos que se realicen intervenciones para reducir R, ralentizando o suprimiendo la transmisión del virus. Cuando  R<1, aunque ocurran transmisiones, el número de nuevos casos decrece con el tiempo y, eventualmente, la epidemia se extingue.

Al inicio de una epidemia, cuando cada persona es susceptible de contraer la enfermedad, se asume que el número de reproducción R es constante durante un periodo de tiempo y se denomina número de reproducción básico R0.

Para la estimación del número de reproducción básico debemos conocer el tiempo entre el inicio de un caso primario y el tiempo de inicio de sus casos secundarios, denominado tiempo entre contagios sucesivos (serial interval). Tomaremos como valores de referencia los proporcionados por  Nishiura[1] que estiman un valor medio de 4.7 días con una desviación estándar de 2.9 días. Con esos datos procederemos a estimar con la herramienta R el número de reproducción básico R0.

 Se obtiene un valor medio de R0 = 2,4. Es decir, en esta fase de crecimiento de la epidemia cada persona infectada está infectando a 2,4 personas susceptibles de infección. Este valor es consistente con las estimaciones realizadas por el Imperial College su informe del 25 de enero de 2020. Este valor es inferior al calculado en el post  del pasado 20/03/2020 (R0 = 2,6) pero la diferencia no es estadísticamente significativa.

El objetivo de las intervenciones que se están realizando en nuestro país tiene como objetivo reducir el número de reproducción hasta conseguir un R < 1.

Quisiera volver a recalcar que este post pretende mostrar las funcionalidades que ofrece R para el estudio epidemiológico y está realizado con un objetivo didáctico sobre las posibilidades de R para el análisis de datos. No debe considerarse un informe de situación ni de previsión sobre la evolución de la epidemia en España.

Índice de letalidad

La estimación del índice de letalidad (CFR) en una epidemia en fase de crecimiento es un desafío. En la fase inicial el cálculo de este valor suele estar sesgado hacia arriba debido a la limitada capacidad de diagnóstico de los casos más leves. Por otro lado, debido al tiempo de dos a tres semanas entre la aparición de síntomas y el resultado clínico final, dividir el número de fallecimientos entre el número de casos notificados podría infraestimar el valor.

Con estas dos consideraciones en mente y como una primera aproximación muy burda, el índice de letalidad para COVID-19 en España según los últimos datos publicados estaría en un 6,6%.

En un próximo post intentaremos modelar el posible efecto de las intervenciones sobre el número de reproducción y realizar un cálculo más elaborado del índice de letalidad.

Te dejo los links a los dos artículos posteriores de esta seria de análisis de COVID-19 en España con R:

Análisis de los datos del COVID-19 en España con R (I)

Análisis de los datos del COVID-19 en España con R (II)

Análisis de los datos del COVID-19 en España con R (III)

Análisis de los datos del COVID-19 en España con R (IV)


[1] Nishiura H, Linton NM, Akhmetzhanov AR, Serial interval of novel coronavirus (COVID-19) infections, International Journal of Infectious Diseases (2020), doi: https://doi.org/10.1016/j.ijid.2020.02.060