
Público
Análisis del panorama de hackathon
Pipeline en Python que scrapeó, estructuró, clusterizó y puntuó 4496 proyectos de la Gemini API Developer Competition en Devpost. Los hallazgos se publicaron como post en LinkedIn.
Stack
Python · BeautifulSoup · Playwright · pandas · scikit-learn · Claude API
Artefactos
Demo / repositorio públicos
En breve
- Pipeline multi-etapa: scraping → estructuración → clustering (TF-IDF + KMeans) → puntuación → narrativa con Claude.
- 4496 proyectos analizados; 4292 puntuados (95.5% de tasa de éxito).
- Hallazgo clave: Developer Tools y Health tuvieron las puntuaciones más altas; Media/Creative fue el dominio más saturado y menos diferenciado.
- Hallazgos publicados como post en LinkedIn; el análisis también informó el posicionamiento de un proyecto posterior.
Patrones reutilizables
- Pipeline multi-etapa con preservación de artefactos brutos: cada etapa es reanudable e independientemente depurable.
- TF-IDF + KMeans como baseline rápido para clustering de dominio en texto corto (descripciones de proyectos).
- Rúbrica de puntuación propia (innovación, impacto, escalabilidad) como proxy de "interesante" antes de leer los docs.
- State tracking (meta.json) para scraping reanudable: reiniciar una corrida larga sin volver a hacer fetch.
- Claude API para profundizar narrativamente: el LLM agrega insight cualitativo sobre los clusters cuantitativos.
Contexto
La Gemini API Developer Competition en Devpost recibió 4496 proyectos — demasiados para leer manualmente.
Objetivo: entender el panorama de forma sistemática: dominios dominantes, áreas sub-servidas, señales tecnológicas y candidatos a premios.
Decisiones
- Pipeline multi-etapa (fetch → structure → analyze → deepen): cada etapa escribe sus outputs antes de que inicie la siguiente — los fallos son baratos y las corridas son reanudables.
- Retry + jitter en el scraper (6 intentos, 0.7s ± 0.15s de delay): throughput estable sin activar rate limits.
- TF-IDF + KMeans para clustering no supervisado: rápido, interpretable, sin datos etiquetados.
- Rúbrica de puntuación propia: composite ponderado de señales de innovación, impacto y escalabilidad extraídas del texto.
- Claude API para deepening (Fase 2): el pipeline cuantitativo da estructura; Claude agrega contexto narrativo y cualitativo.
Arquitectura
- fetch: scrapea páginas de galería + detalles de proyectos con retry, jitter y preservación de HTML crudo.
- structure: normaliza JSONL a tabla maestra, extrae tech tags, links (repo/demo/video), miembros del equipo.
- analyze: TF-IDF + KMeans (18 clusters), clasificación por reglas de dominio, puntuación compuesta, nominación de candidatos a premios.
- deepen (Fase 2): Claude API genera resúmenes narrativos sobre los clusters cuantitativos.
- Todos los outputs intermedios se escriben a disco (dump/, structured/, analysis/) — el pipeline es completamente reanudable.
Resultados
- 4292 de 4496 proyectos puntuados (95.5% de tasa de éxito).
- Hallazgo clave: Developer Tools (puntuación media 55.9) y Health & Wellness (55.6) fueron los dominios de mayor calidad; Media/Creative Tools (48.5% de envíos, media 46.6) fue el más saturado y menos diferenciado.
- 31.98% de proyectos agénticos; 32.25% multimodal — identificados como clusters de capacidades emergentes.
- Hallazgos publicados como post en LinkedIn; el análisis también se usó para posicionamiento competitivo de un proyecto posterior.
Enlaces
Láminas del análisis

1 / 7