Público

Análisis del panorama de hackathon

Pipeline en Python que scrapeó, estructuró, clusterizó y puntuó 4496 proyectos de la Gemini API Developer Competition en Devpost. Los hallazgos se publicaron como post en LinkedIn.

Stack

Python · BeautifulSoup · Playwright · pandas · scikit-learn · Claude API

Artefactos

Demo / repositorio públicos

En breve

Pipeline multi-etapa: scraping → estructuración → clustering (TF-IDF + KMeans) → puntuación → narrativa con Claude.
4496 proyectos analizados; 4292 puntuados (95.5% de tasa de éxito).
Hallazgo clave: Developer Tools y Health tuvieron las puntuaciones más altas; Media/Creative fue el dominio más saturado y menos diferenciado.
Hallazgos publicados como post en LinkedIn; el análisis también informó el posicionamiento de un proyecto posterior.

Patrones reutilizables

Pipeline multi-etapa con preservación de artefactos brutos: cada etapa es reanudable e independientemente depurable.
TF-IDF + KMeans como baseline rápido para clustering de dominio en texto corto (descripciones de proyectos).
Rúbrica de puntuación propia (innovación, impacto, escalabilidad) como proxy de "interesante" antes de leer los docs.
State tracking (meta.json) para scraping reanudable: reiniciar una corrida larga sin volver a hacer fetch.
Claude API para profundizar narrativamente: el LLM agrega insight cualitativo sobre los clusters cuantitativos.

Contexto

La Gemini API Developer Competition en Devpost recibió 4496 proyectos, demasiados para leer manualmente.

Objetivo: entender el panorama de forma sistemática: dominios dominantes, áreas sub-servidas, señales tecnológicas y candidatos a premios.

Decisiones

Pipeline multi-etapa (fetch → structure → analyze → deepen): cada etapa escribe sus outputs antes de que inicie la siguiente; los fallos son baratos y las corridas son reanudables.
Retry + jitter en el scraper (6 intentos, 0.7s ± 0.15s de delay): throughput estable sin activar rate limits.
TF-IDF + KMeans para clustering no supervisado: rápido, interpretable, sin datos etiquetados.
Rúbrica de puntuación propia: composite ponderado de señales de innovación, impacto y escalabilidad extraídas del texto.
Claude API para deepening (Fase 2): el pipeline cuantitativo da estructura; Claude agrega contexto narrativo y cualitativo.

Arquitectura

fetch: scrapea páginas de galería + detalles de proyectos con retry, jitter y preservación de HTML crudo.
structure: normaliza JSONL a tabla maestra, extrae tech tags, links (repo/demo/video), miembros del equipo.
analyze: TF-IDF + KMeans (18 clusters), clasificación por reglas de dominio, puntuación compuesta, nominación de candidatos a premios.
deepen (Fase 2): Claude API genera resúmenes narrativos sobre los clusters cuantitativos.
Todos los outputs intermedios se escriben a disco (dump/, structured/, analysis/); el pipeline es completamente reanudable.

Resultados

4292 de 4496 proyectos puntuados (95.5% de tasa de éxito).
Hallazgo clave: Developer Tools (puntuación media 55.9) y Health & Wellness (55.6) fueron los dominios de mayor calidad; Media/Creative Tools (48.5% de envíos, media 46.6) fue el más saturado y menos diferenciado.
31.98% de proyectos agénticos; 32.25% multimodal, identificados como clusters de capacidades emergentes.
Hallazgos publicados como post en LinkedIn; el análisis también se usó para posicionamiento competitivo de un proyecto posterior.

Enlaces

Post de LinkedIn

Láminas del análisis

$Solo una fracción se comporta como agente real. El 31.98% se declara agéntico; solo el 3.56% pasa una verificación estricta.$

1 / 7