PythonHack 2016

Reto Card Analytics

Del 30 de septiembre al 8 de octubre

Introducción

El estudio que se presenta a continuación se enmarca dentro del reto Card Analytics organizado por la competición online Cajamar PythonHack 2016. El análisis se basa en transacciones reales con tarjetas de crédito y débito del año 2015 del Grupo Cajamar en la ciudad de Almería.

Hemos realizado el estudio usando numpy, pandas y matplotlib en un Jupyter notebook para permitir su reproducibilidad. Los datos han sido enriquecidos añadiendo los datos meteorológicos para la ciudad de Almería provistos por la estación agroclimática de Almería de la Junta de Andalucía. Los principales resultados del estudio se muestran en las siguientes secciones.

Visión general

La primera aproximación a los datos la realizamos sumando los pagos totales por sectores y viendo su distribución durante los diferentes días de la semana. En esta primera gráfica se puede observar que los usuarios de Cajamar realizan un mayor gasto en sectores como Alimentación o Moda y complementos. En estos sectores se registra también que la mayor actividad de los pagos con tarjeta tiene lugar el sábado. En salud, en cambio, se observa un descenso en los pagos desde el viernes hasta el domingo. Por otro lado se observa como en restauración el incremento se produce conforme se acerca el fin de semana con un mínimo muy marcado en los lunes. En el resto de sectores, aunque también se observan caídas con la llegada del fin de semana, especialmente el domingo, en general mantienen un comportamiento más homogéneo con respecto al resto de la semana.

Figura con el importe de pago para cada sector en los días de la semana desde el lunes hasta el domimngo.

Un segundo acercamiento tiene lugar nuevamente sumando los pagos totales por sectores, y distribuyéndolos esta vez entre todas las semanas del año. De esta gráfica, además de los esperados comportamientos en sectores como alimentación durante Navidad, se observa una anomalía en el mes de Agosto. Esta anomalía se corresponde con la feria de Almería, la cual tiene lugar durante la segunda mitad del mes de Agosto. Se puede observar claramente como todos los sectores, excepto el de la restauración, registran un descenso significativo en el pago con tarjeta que los usuarios de Cajamar realizan durante este periodo.

Figura con la distribución del importe por sectores para cada semana del año.

A continuación nos vamos a centrar en el análisis de los dos sectores en los que la cantidad pagada con tarjeta es mayor, la alimentación y moda y complementos.

Alimentación

Si observamos la gráfica bajo estas líneas (se puede aumentar el tamaño de la imagen haciendo click sobre ella), podemos ver que la tendencia general de los usuarios es hacer la compra el sábado por la mañana. Durante el resto de la semana, hay una ligera tendencia a comprar más al principio y al final de la semana, realizándose las compras homogéneamente tanto por la mañana como por la tarde. Sin embargo, esta tendencia general se rompe la víspera de festivos cuando tiene lugar un aumento en las compras en el sector alimentación. A modo de ejemplo nos serviría el día de Andalucía, cuando además el patrón horario de compras se invierte y la compra se pasa a realizar el viernes por la tarde. Otra anomalía la encontramos durante la feria. En este caso, la franja horaria en la que se realizan el mayor número de pagos con tarjeta es la de la mañana, quizás por el cierre de los comercios las tardes de feria (¿para ir a los toros?). Como era de esperar durante el periodo de Navidad el aumento de pagos con tarjeta aumenta notablemente los días previos al día 25 de Diciembre, siendo el pico más alto el día 23 de Diciembre.

Moda y complementos

En comparación con la gráfica anterior sobre alimentación, la distribución anual de los pagos en moda y complementos presenta similitudes en el patrón de compra de semana en semana: mayor número de pagos el sábado por la mañana que durante el resto de la semana. Este patrón, en cambio, se diluye durante el periodo de verano (Julio y Agosto) cuando el pago con tarjeta en este sector se homogeneiza durante todos los días de la semana. Además de las anomalías de Navidad y Semana Santa, otras dos llaman nuestra atención. La primera anomalía tiene lugar en el mes de Julio cuando se puede observar un pico de pagos. Este pico de pagos es el que coincide con las rebajas de verano, el cual se puede ver además acentuado por una posible paga extra de verano. La segunda anomalía tiene lugar en torno al 27 y 28 de Noviembre cuando creemos que el pico tiene su origen en el Black Friday, el día de las ofertas importado de EE.UU. Además, a esto ayuda el hecho que durante estos días tiene lugar el cobro de la última nómina antes de la Navidad. Todos estas tendencias pueden ser modeladas para predecir la demanda en un momento dado.

Localización geográfica

Del análisis de códigos postales de los comercios en los que se han realizado los diferentes pagos con tarjeta también se pueden extraer conclusiones. Los códigos postales en los que más transacciones con tarjeta tienen lugar son el 04001 y 04006, correspondientes con las zonas del Paseo de Almería y calles adyacentes, y Nueva Andalucía y Carrefour respectivamente. En la mayoría de los códigos postales se observa una menor actividad en el pago con tarjeta en feria. Sin embargo, en el código postal 04002 correspondiente con la zona de Almería del casco viejo entorno a la catedral, Pescadería y La Fuentecica, las transacciones no se ven alteradas por la feria. Algunos de los posibles motivos que podrían dar lugar a esta baja actividad en las transacciones en esta zona se puede deber por una parte a que el número de comercios en la zona sea muy reducidos, o bien, por otra parte, a que los habitantes de la zona no realicen muchos pagos con tarjeta.

Figura con la distribución del pago por sectores de consumición y códigos postales.

Meteorología

Finalmente, hemos querido conocer en qué medida la meteorología afecta a la provincia con el mayor número de horas de sol anuales. Tras buscar las posibles relaciones con las variables meteorológicas (que tienen una resolución de un día) encontramos, en general, relaciones marginales que requerirían un estudio sofisticado para ser confirmadas. Sin embargo sí hay una relación muy clara entre la lluvia y el descenso de compras de moda y complementos. En la gráfica se puede observar un claro descenso en los pagos que coincide con los días en los que ha habido más precipitaciones. Este descenso no se observa en alimentación ya que se trata de una actividad de compra ineludible en general mientras que la compra de moda y complementos es una actividad más impulsiva.

Pero, el descenso es muy claro en los tres días (17 de febrero, 20 de marzo y 15 de abril) de más lluvia a principios de año pero no tan claro el 20 de octubre, que es el día en que se registra una mayor precipitación. ¿Qué puede producir esto? Nosotros pensamos que la ausencia del descenso en las compras este último día se debe a que la mayoría de la lluvia pudo caer fuera del horario comercial o con menos intensidad, pero ¿es esto así? Buscando datos meteorológicos para esos días con una resolución espacial mayor (en tutiempo.net y meteomanz.com) se observa claramente que, el 20 de octubre, la mayoría de la lluvia había caido antes de las 9 de la mañana, la lluvia fue suave por la mañana y durante la tarde hizo buen tiempo. Esto contrasta con los datos para los otros tres días en los que la lluvia cayo en pleno horario comercial, con una intensidad torrencial y acompañada de vientos muy fuertes. Así que concluimos que la lluvia, especialmente la torrencial, afecta negativamente a las compras de moda y complementos en Almería.

Conclusiones y propuestas

Como se ha visto en los puntos anteriores es posible predecir los patrones de transacciones basándose en una serie básica de parámentros. Se ve como la hora del día, día de la semana, día del año, festividades, eventos e incluso el tiempo meteorológico influyen en el patrón de compras. Con estos datos se puede ajustar un modelo que prediga la demanda en cada uno de los sectores. Adicionalmente la información geográfica puede usarse para estimar los factores económicos relevantes de cada zona, fundamental a la hora de tomar decisiones.

Una posible propuesta que se podría hacer tras analizar estos datos está relacionada con la Economía Social. Se podrían ofrecer servicios de modelado y predicción de demanda. Aunque este tipo de servicios ya existen, no suelen estar al alcance de los pequeños comerciantes. Una posible forma de ayudar al pequeño comercio de Almería y cumplir una función social sería poner a su alcance estos servicios para que puedan planear la demanda que van a afrontar.

Apéndice

Adjuntamos el notebook usado para cargar los datos y crear las figuras: notebook y los datos meteorológicos usados