Valeria Rodríguez, egresada del programa AWS re/Start, ha desarrollado una arquitectura cloud nativa diseñada para la ingesta, procesamiento y análisis de datos musicales. Inspirada en las dinámicas de personalización masiva (como el famoso resumen anual de Spotify), esta solución demuestra cómo estructurar un flujo de trabajo eficiente para extraer valor de grandes volúmenes de información.
De qué trata el proyecto
El proyecto consiste en un pipeline de datos escalable enfocado en recopilar, transformar y analizar las listas de reproducción (playlists) de los usuarios de Spotify. A través de este flujo, el sistema extrae métricas de valor como los artistas favoritos, las canciones más escuchadas y el tiempo promedio de reproducción, generando reportes visuales y archivos listos para ser consumidos por herramientas externas.
Qué problema viene a resolver
La arquitectura aborda la necesidad de procesar y estructurar grandes volúmenes de datos no organizados provenientes de aplicaciones de streaming o plataformas externas. Tradicionalmente, la recolección, limpieza y análisis de este tipo de información requiere una infraestructura compleja; este proyecto resuelve esa barrera ofreciendo una solución que procesa la información de forma automatizada, reduce la latencia en los cálculos y permite el escalamiento hacia entornos de Big Data sin configuraciones manuales costosas.
¿Cuál es la solución?
La propuesta consiste en un flujo de datos automatizado de punta a punta que extrae la información directamente desde la API de Spotify, la limpia de manera inteligente (normalización y enriquecimiento de datos) y ejecuta cálculos avanzados. Como resultado final, la plataforma genera y almacena reportes automatizados en formatos CSV, PDF e imágenes con gráficos analíticos, los cuales quedan disponibles para ser integrados en tableros de Power BI, aplicaciones móviles o campañas de email automatizadas.
¿Cómo fue construido?
El proyecto fue edificado utilizando un enfoque modular y servicios clave de Amazon Web Services (AWS) de la siguiente manera:
- Extracción y Disparadores: Funciones AWS Lambda conectadas a la API de Spotify para recolectar los datos iniciales y activar de manera automática las siguientes etapas del flujo al detectar nuevos archivos.
- Procesamiento y ETL: AWS Glue (Glue Jobs) para la limpieza, normalización, enriquecimiento y conversión de los datos extraídos a formato JSON.
- Análisis y Visualización: Glue Notebooks para realizar los cálculos analíticos de preferencias musicales y generar los gráficos informativos.
- Almacenamiento: Múltiples buckets de Amazon S3 que actúan como capas de almacenamiento intermedio (datos crudos y procesados) y repositorio final para los reportes y recursos multimedia.
- Escalabilidad Futura: La arquitectura fue diseñada para operar con usuarios individuales, pero cuenta con la capacidad nativa de escalar hacia Big Data masivo integrando AWS EMR (Elastic MapReduce).


