Tutorial: Análisis de Datos COVID-19 con Herramientas CSV (Dataset Johns Hopkins)
Aprenda técnicas prácticas de análisis de datos utilizando datos de COVID-19 del mundo real de la Universidad Johns Hopkins. Este tutorial práctico le muestra cómo limpiar, analizar y obtener información de un conjunto de datos público real, sin necesidad de programación.
Conjunto de datos: Repositorio de datos COVID-19 de CSSE en la Universidad Johns Hopkins
Licencia: Dominio público
Tamaño: ~50 MB
Filas: más de 200.000 registros de series temporales
Dificultad: Principiante a Intermedio
Lo que aprenderás
Al final de este tutorial, sabrá cómo:
- ✅ Limpiar datos desordenados del mundo real
- ✅ Transforme datos amplios en un formato listo para análisis
- ✅ Calcular cambios y tendencias diarias
- ✅ Suavizar datos ruidosos con promedios móviles
- ✅ Encuentra patrones y fechas pico
- ✅ Cree análisis específicos de cada país
- ✅ Exportar resultados para presentaciones
No se requiere codificación, ¡solo apunte, haga clic y analice!
Obteniendo los datos
Paso 1: descargar el conjunto de datos
- Visite el [repositorio Johns Hopkins COVID-19] (https://github.com/CSSEGISandData/COVID-19)
- Navegue a:
csse_covid_19_data/csse_covid_19_time_series/ - Descargar:
time_series_covid19_confirmed_global.csv
Qué contienen estos datos: Casos confirmados de COVID-19 para cada país, actualizados diariamente desde enero de 2020 en adelante.
Paso 2: comprender la estructura de datos
El archivo se ve así (simplificado):
| Provincia/Estado | País/Región | Latitud | Largo | 22/01/20 | 23/01/20 | 24/01/20 | ... |
|---|---|---|---|---|---|---|---|
| Afganistán | 33,93 | 67,71 | 0 | 0 | 0 | ... | |
| Albania | 41,15 | 20.17 | 0 | 0 | 0 | ... |
Desafíos con este formato:
- ❌ Una columna para CADA fecha (¡cientos de columnas!)
- ❌ Difícil de ordenar por fecha
- ❌ No se pueden filtrar fácilmente los rangos de fechas
- ❌ Totales acumulados (no casos nuevos diarios)
¡No te preocupes, arreglaremos todo esto!
