IA aplicada
De masterclasses internas a criterio operativo para RAG regulatorio
Problema
En IA aplicada al dominio fiscal y regulatorio, saber usar un framework no alcanza. El problema real es decidir qué medir, qué recuperar, qué poner en producción y cómo detectar que el sistema empeoró. Esa capacidad se pierde si las notas quedan como una lista suelta de artículos, demos y prompts.
Decisión
Organicé el estudio como cuatro masterclasses acumulativas: evaluación de sistemas IA, information retrieval, patrones de producción y economía de inferencia. El hilo conductor es el mismo: sistemas RAG sobre corpus regulatorio y fiscal chileno, con teoría, código ejecutable y ejemplos.
En el repo local, las tres primeras partes están cerradas: 12 secciones de evals, 9 de retrieval y 12 de producción. Economía de inferencia queda como el siguiente módulo específico, aunque la capa de producción ya incluye costo, budget guards y routing consciente de costo.
Tradeoffs
- Implementar primitivas desde cero cuando enseñan criterio: BM25, TF-IDF, RRF, token buckets, circuit breakers y cachés.
- Preferir corpus y ejemplos chilenos antes que demos genéricas que no exponen problemas de dominio.
- Separar evaluación, retrieval y producción para que cada fallo tenga diagnóstico propio.
- Evitar infraestructura sobredimensionada: primero FastAPI, Postgres/pgvector, observabilidad suficiente y runbooks.
Validación
Cada sección combina un documento teórico con un script ejecutable. Evals cubre golden datasets, métricas de retrieval/generación, LLM-as-judge, bootstrap e integración en CI. Retrieval compara BM25, embeddings, búsqueda híbrida, chunking, query rewriting, reranking y casos límite del dominio. Producción agrega prompts versionados, caché multinivel, tracing, retries, circuit breakers, canary, online evals, costo, seguridad e incidentes.
Resultado
- Un mapa reutilizable para diseñar sistemas RAG fiscal/regulatorios con criterios explícitos.
- Código pequeño que revela los mecanismos antes de esconderlos detrás de librerías.
- Material base para posts, workshops internos o conversaciones con clientes sobre IA de alto riesgo.
- Una progresión clara: primero medir, luego recuperar mejor, después operar con costos y fallos visibles.
Siguiente
Lo publicable no es volcar la masterclass completa al blog, sino destilar piezas concretas: cómo construir un golden dataset fiscal, cuándo BM25 le gana a embeddings, o cómo calcular el costo real de un RAG antes de venderlo.