¿Cómo es la calidad de los datos de los Informes Epidemiológicos del Minsal?
El aumento en número total de muertes siembra dudas sobre cifras oficiales del coronavirus. Sin ir más lejos, en Chile se instaló el debate por una investigación periodística, que no tiene fuentes oficiales, que señala que habría un alza de 11% en el total de muertes, en relación con los datos de los últimos cinco años.
Aquí intentamos dar transparencia al contexto de esta discusión aclarando lo que es un mapa de calidad de datos.
Por equipo Unholster.
El Ministerio de Salud de Chile publica todos los lunes, miércoles y viernes un Informe Epidemiológico con los casos confirmados de Covid-19, además de otras cifras fundamentales a la hora de analizar una pandemia como la del Coronavirus.
Estos datos deben seguir cierta estructura para poder ser analizados y comparados, así es como se mide su calidad.
La realidad de los datos
Antes de profundizar sobre los informes del Minsal, es importante entender la realidad de los datos a nivel general. Cuando se habla de datos, existe cierta expectativa en cómo estos están dispuestos, pero la realidad es que la gran mayoría de las bases de datos son muy difíciles de analizar y se alejan mucho de lo que se espera en calidad.
Así es como uno esperaría que los datos sean confiables, precisos, estructurados, fáciles de entender, entre otras características, pero en la realidad estos suelen ser confusos, poco confiables; poco precisos y poco estructurados.
¿Qué es un mapa de calidad de datos?
Un mapa de calidad de datos representa la exactitud, completitud, integridad, actualización, coherencia, relevancia y confiabilidad de los datos recolectados de una fuente externa para su posterior procesamiento o análisis.
Para crear un mapa de calidad de datos, primero se deben definir los indicadores o KPIs (Key Performance Indicators) que se considerarán para medir la calidad (latencia, periodicidad, cantidades totales, etc). Luego un sistema revisa los nuevos datos recibidos y califica la calidad en base a esos criterios (ej. Un informe está atrasado en su publicación o un número no calza con el informe anterior).
Este análisis se ve representado en un mapa con colores para que sea fácil de entender y analizar.
Los riesgos de no medir la calidad de los datos
Muchas veces se pueden generar informes, noticias y todo tipo de publicaciones en base a datos incorrectos o poco actualizados, lo que genera información errada y desconfianza.
Un ejemplo claro de esto son las cifras reportadas por fallecimientos por Covid-19. Hoy, El Mercurio tituló una noticia en su cuerpo A: “Aumento en número total de muertes siembra dudas sobre cifras oficiales del coronavirus”. Estas dudas surgieron a partir de las cifras recolectadas por el New York Times, que analizó los fallecimientos de 10 países durante el mes de abril y los comparó con los de años anteriores.
En su publicación se observa que, durante este mes, hay cerca de 109 mil defunciones más que el mismo periodo de años anteriores y si se restan las cifras por Covid-19, siguen habiendo más de 40 mil defunciones extras, lo que genera dudas y desconfianza de las cifras oficiales reportadas.
Si existiera un mapa de calidad de los datos oficiales de las defunciones y sus causas en cada país, quizás no se generaría esta incertidumbre.
Mapa de calidad de datos: Casos confirmados Coronavirus Minsal
En Unholster, creamos un mapa de calidad de datos en base a los Informes Epidemiológicos publicados por el Ministerio de Salud.
En este mapa los KPIs analizados en primera instancia son:
Latencia: Demora en la recepción del informe, considerando publicaciones todos los lunes, miércoles y viernes, de acuerdo a lo informado por el Minsal.
Rollup Contagiados Nacional: Comparación de casos confirmados totales del país con el recuento de los datos regionales.
Rollup Activos Nacionales: Comparación de casos activos totales del país con el recuento de los datos regionales.
Puedes revisar el mapa de calidad aquí: