De masterclasses internas a criterio operativo para RAG regulatorio

Problema

En IA aplicada al dominio fiscal y regulatorio, saber usar un framework no alcanza. El problema real es decidir qué medir, qué recuperar, qué poner en producción y cómo detectar que el sistema empeoró. Esa capacidad se pierde si las notas quedan como una lista suelta de artículos, demos y prompts.

Decisión

Organicé el estudio como cuatro masterclasses acumulativas: evaluación de sistemas IA, information retrieval, patrones de producción y economía de inferencia. El hilo conductor es el mismo: sistemas RAG sobre corpus regulatorio y fiscal chileno, con teoría, código ejecutable y ejemplos.

En el repo local, las tres primeras partes están cerradas: 12 secciones de evals, 9 de retrieval y 12 de producción. Economía de inferencia queda como el siguiente módulo específico, aunque la capa de producción ya incluye costo, budget guards y routing consciente de costo.

Tradeoffs

Implementar primitivas desde cero cuando enseñan criterio: BM25, TF-IDF, RRF, token buckets, circuit breakers y cachés.
Preferir corpus y ejemplos chilenos antes que demos genéricas que no exponen problemas de dominio.
Separar evaluación, retrieval y producción para que cada fallo tenga diagnóstico propio.
Evitar infraestructura sobredimensionada: primero FastAPI, Postgres/pgvector, observabilidad suficiente y runbooks.

Validación

Cada sección combina un documento teórico con un script ejecutable. Evals cubre golden datasets, métricas de retrieval/generación, LLM-as-judge, bootstrap e integración en CI. Retrieval compara BM25, embeddings, búsqueda híbrida, chunking, query rewriting, reranking y casos límite del dominio. Producción agrega prompts versionados, caché multinivel, tracing, retries, circuit breakers, canary, online evals, costo, seguridad e incidentes.

Resultado

Un mapa reutilizable para diseñar sistemas RAG fiscal/regulatorios con criterios explícitos.
Código pequeño que revela los mecanismos antes de esconderlos detrás de librerías.
Material base para posts, workshops internos o conversaciones con clientes sobre IA de alto riesgo.
Una progresión clara: primero medir, luego recuperar mejor, después operar con costos y fallos visibles.

Lo publicable no es volcar la masterclass completa al blog, sino destilar piezas concretas: cómo construir un golden dataset fiscal, cuándo BM25 le gana a embeddings, o cómo calcular el costo real de un RAG antes de venderlo.