De la idea a la realidad: Cómo Desarrollar un Proyecto Real en Machine Learning

El mundo de los datos es como un océano infinito, y navegar en él puede ser abrumador. Pero, ¿qué sucede cuando alguien tiene una idea brillante para sacar provecho de estos datos y resolver problemas del mundo real?

Una cosa es la teoría y otra es cómo desarrollar un proyecto real en machine learning.

Hoy exploraremos cómo una idea de Pau Labarta Bajo se convierte en un proyecto fascinante: predecir la demanda de taxis en Nueva York en los próximos 60 minutos.

La mente detrás del proyecto: Pau Labarta Bajo

Pau Labarta Bajo

Pau Labarta Bajo es un apasionado de los datos y el aprendizaje automático.

Su Twitter ↗ es un tesoro de ideas y conocimientos sobre cómo utilizar la ciencia de datos para abordar problemas complejos y brindar soluciones innovadoras.

Cuatro pasos para enfrentar el desafío

Pau sugiere un enfoque de 4 pasos para llevar una idea de proyecto de aprendizaje automático a la realidad:

Definir el problema empresarial
Preparar los datos
Entrenar el modelo
Implementar y utilizar técnicas de MLOps (Machine Learning Operations)

Ahora, veamos cómo estos pasos se aplican al proyecto de predicción de demanda de taxis en Nueva York.

Predicción de demanda de taxis en Nueva York: Un caso práctico

Paso 1: Identificar el problema empresarial

El objetivo es desarrollar un modelo predictivo para pronosticar el número de viajes en taxi que ocurrirán en Manhattan (Nueva York) durante la siguiente hora, en cada zona de taxis (por ejemplo, la zona 113 «Lower Manhattan»).

Paso 2: Preparar los datos

Los datos históricos de viajes en taxi se pueden obtener de este sitio web público ↗. El proceso de preparación de datos implica la validación, agregación en series de tiempo y transformación en características y objetivos, seguido de la división en conjuntos de entrenamiento y prueba.

Paso 3: Entrenar el modelo

Se puede comenzar con un modelo base que simplemente utiliza la demanda de la última hora como estimación para la siguiente hora. Luego, se pueden explorar diferentes formas de mejorar el modelo, como aumentar los datos de entrenamiento, agregar más características, probar otros algoritmos de aprendizaje automático (por ejemplo, XGBoost en lugar de LightGBM) y ajustar los hiperparámetros del modelo.

Paso 4: Implementación y MLOps

Una vez que el modelo esté listo, se puede construir un sistema de puntuación por lotes utilizando una arquitectura de tres tuberías (características, entrenamiento e inferencia) y un «Feature Store». Finalmente, se puede crear un panel de control de monitoreo utilizando Streamlit para visualizar las predicciones del modelo y compararlas con los objetivos reales, mostrando la métrica de error en línea.

Una metáfora para recordar

Imagina que la predicción de la demanda de taxis es como prever el clima en un día lluvioso. Cuando tienes un buen paraguas (un modelo predictivo preciso), puedes estar preparado y enfrentar el aguacero sin problemas. De lo contrario, te verás atrapado en la lluvia, sin saber qué hacer a continuación.

En resumen

Pau Labarta Bajo nos presenta una idea emocionante para abordar el desafío de predecir la demanda de taxis en Nueva York utilizando aprendizaje automático. Siguiendo sus cuatro pasos de enfoque, podemos desarrollar un sistema que ayude a las empresas a tomar decisiones informadas y adaptarse a los cambios en tiempo real. ¡Es hora de sumergirse en el océano de datos y navegar hacia el éxito!