Proyecto | Predicción de fraudes financieros con migración de datos y machine learning en AWS | Mario Valenzuela

Comparte

Mario Valenzuela, egresado del programa AWS re/Start, presenta su proyecto llamado “Migración de datos para modelo predictivo de transacciones fraudulentas”, enfocado en la predicción de fraudes financieros a partir del análisis de datos de transacciones.

¿De qué trata el proyecto?

El proyecto consiste en utilizar datos de transacciones financieras para construir un modelo predictivo que permita estimar la probabilidad de que una transacción sea fraudulenta o no fraudulenta, a partir de variables como el monto, el tipo de transacción, la hora y los estados de cuenta antes y después de la operación.

¿Qué problema viene a resolver?

Busca abordar el problema del fraude financiero, un acto engañoso que tiene como objetivo obtener ganancias financieras o causar pérdidas a otras personas, y que puede ocurrir tanto en transacciones virtuales como físicas. El proyecto plantea la necesidad de predecir fraudes financieros mediante el análisis de patrones en los datos de transacciones.

¿Cuál es la solución?

Un modelo predictivo de aprendizaje automático que, a partir de los datos de las transacciones financieras, calcula la probabilidad de que una transacción sea fraudulenta. El modelo permite evaluar distintos escenarios según el monto, la hora y el tipo de transacción, devolviendo un porcentaje de probabilidad de fraude.

¿Cómo fue construido?

Se utilizó una base de datos obtenida de Kaggle, que contiene campos como monto, tipo de transacción, indicador de fraude, hora de la transacción y estados de cuenta antes y después de la operación.
Para la limpieza y manipulación de datos se utilizó Pandas; para el entrenamiento del modelo se utilizó Scikit-learn con el algoritmo Random Forest; y para la visualización de datos se utilizó Matplotlib.
Debido al tamaño de la base de datos (aproximadamente 6 millones de registros), se tomó una muestra de 8,000 datos, con la mitad de transacciones fraudulentas y la mitad no fraudulentas para evitar sesgos en el modelo.
Se realizaron visualizaciones de la frecuencia de tipos de transacciones fraudulentas y no fraudulentas, del comportamiento de las transacciones según la hora del día y de los montos más frecuentes antes y después de las transacciones.
Se presentó una arquitectura en la nube donde los datos locales se migran a S3 mediante AWS DataSync, se procesan con AWS Glue, se entrenan modelos con SageMaker y se exponen predicciones a través de API Gateway y Lambda. Las transacciones se registran en DynamoDB y, si se supera un umbral de riesgo, se envían alertas por correo electrónico mediante Amazon SNS.

Este proyecto muestra cómo el análisis de datos de transacciones financieras puede utilizarse para construir modelos predictivos de fraude, combinando técnicas de machine learning con una arquitectura en la nube orientada a la migración, procesamiento, entrenamiento y consumo de modelos. La propuesta permite mantener los datos actualizados y responder en tiempo real ante posibles riesgos de fraude.