MVP 2024: programas públicos → líneas presupuestarias → evidencia → cola de revisión.

Público

Evaluación DIPRES

Sistema auditable que conecta programas públicos evaluados en Chile con líneas presupuestarias, ejecución y evidencia documental, modelando el cruce como hipótesis revisable.

706: programas BIPS Monitoreo 2024
420: cruces defendibles
60%: cobertura defendible MVP

Stack

Python · Typer · DuckDB · Pydantic · pandas · RapidFuzz · httpx · pypdf · OpenPyXL · pytest

Artefactos

Export MVP local + manifiesto; repo, demo y paquete público pendientes de confirmar

Restricciones

Caso base basado en documentación local del proyecto; repo, demo y paquete público pendientes de confirmar.
Las métricas corresponden a una corrida local MVP 2024 y no deben leerse como contabilidad oficial por programa.
El bridge programa-presupuesto es una hipótesis auditable: exact_match no implica exclusividad presupuestaria.

En breve

Construye una tabla puente entre programas BIPS/DIPRES, Ley de Presupuestos, ejecución, glosas y evidencia documental.
Cada match conserva regla, score, estado, fuente, URL, hash y fragmento textual para revisión o refutación.
Separa vínculo programático y alcance financiero para no confundir una línea agregada con gasto exclusivo del programa.

Patrones reutilizables

Ingesta conservadora: guardar artefactos brutos, hash SHA-256 y metadatos antes de interpretar.
Matching restringido por ministerio, servicio y año para evitar fuzzy matching global sobre datos públicos sensibles.
Estados explícitos (exact_match, high_confidence, ambiguous, unmatched) más cola de revisión manual.
Separar estado de match y financial_scope para comunicar incertidumbre sin esconder evidencia útil.

Contexto

Chile evalúa y monitorea programas públicos, pero la clasificación presupuestaria no ofrece una llave formal que conecte cada programa evaluado con sus líneas de presupuesto.

El problema no es solo técnico: “programa público” y “programa presupuestario” son entidades distintas y pueden tener relaciones muchos-a-muchos.

El valor del sistema es documentar qué cruces son defendibles, cuáles son ambiguos y dónde se rompe la trazabilidad bajo fuentes públicas disponibles.

Decisiones

Modelar el cruce como hipótesis auditable, no como certificación contable.
Guardar HTML, PDF, XLSX, XML, CSV o respuestas API como artefactos brutos con hash antes de parsear.
Construir entidades programáticas desde BIPS/DIPRES y líneas presupuestarias desde Ley, ejecución y glosas.
Restringir matching automático al universo institucional correcto y bloquear falsos positivos conocidos como tests de regresión.
Mantener revisión manual y change log para decisiones ambiguas o de alto impacto.

Arquitectura

DuckDB mantiene raw_artifact, dimensiones programáticas, bridge_programa_presupuesto y colas de revisión.
El sistema consume upstreams locales para ejecución presupuestaria DIPRES e Informes Financieros en vez de duplicar esos pipelines.
Las salidas separan montos trazados, ambiguos y no comparables para evitar sumas contables falsas.

Resultados

La corrida local 2024 documenta 706 programas monitoreados, 420 con bridge defendible y 286 sin cruce defendible bajo reglas conservadoras.
El 40% sin cruce se comunica como brecha de trazabilidad, no como fallo de scraping ni como inexistencia presupuestaria.
El caso muestra infraestructura de datos pública reutilizable: contratos, fuentes, hashes, revisión y política metodológica.