Hospitales_ESP: de datos públicos dispersos a inteligencia sanitaria accionable

Salud Pública

Hospitales_ESP: de datos públicos dispersos a inteligencia sanitaria accionable

Por Alonso Valdés2025-09-25
#salud#etl#datos publicos#espana#modelo datos

Introducción

Hospitales_ESP nace como respuesta a un problema frecuente: los datos sanitarios públicos en España están disponibles, pero fragmentados entre portales y formatos. El objetivo fue construir un pipeline reproducible para integrar, normalizar y validar estas fuentes, generando un modelo de datos usable para análisis comparables entre comunidades autónomas y a lo largo del tiempo.

Problema

Con fuentes dispersas, nomenclaturas heterogéneas y metadatos incompletos, es difícil responder preguntas básicas: ¿cómo evoluciona la actividad hospitalaria?, ¿dónde aparecen cuellos de botella?, ¿qué variabilidad territorial es estructural y cuál es coyuntural?

Solución técnica

  • ETL reproducible con ingestión, limpieza y normalización de campos clave (fechas, unidades, códigos).
  • Diccionario de datos y convenciones para facilitar joins y comparaciones.
  • Validaciones mínimas de calidad (rangos, consistencia temporal, claves únicas, duplicados).
  • Estructura modular para añadir nuevas fuentes sin romper compatibilidad.

Modelo de datos

Esquema canónico con tablas de hechos y dimensiones mínimas (centro, periodo, servicio), pensado para consultas típicas (series temporales, comparativas interregionales, “small multiples” por servicio).

Ejemplos de hallazgos

  • Variación estacional en indicadores de actividad y ocupación.
  • Outliers persistentes que sugieren problemas de registro o casuística local.
  • Diferencias estructurales entre CCAA que se estabilizan tras normalizar por población.

Visualizaciones

  • Mapa coroplético por indicador con filtros de periodo.
  • “Small multiples” por servicio para comparar trayectorias.
  • Detección de anomalías con bandas históricas.

Roadmap

  • Ampliar fuentes y documentación de metadatos.
  • QA automatizado y pruebas de regresión de datos.
  • Publicar tablero con indicadores comparables y descarga de datasets.

Reproducibilidad

Código y guía de uso en el repositorio. Contribuciones y nuevas fuentes son bienvenidas.

Ver repositorio en GitHub