Analizando datos sobre el Brexit con Pandas

Por Bob Belderbos

Esta entrada apareció en inglés en mi blog.

Desde hace tiempo quería aprender Pandas. Por fin llegó la oportunidad: Brexit = datos.

Como siempre empecé con un ejercicio / objetivo práctico, en este caso procesar los datos del referéndum. Usé Pandas para analizar los datos (CSV) publicados por electoralcommission.org.uk.

Aunque quería responder a más preguntas este CSV era suficiente para estrenarme con Pandas (¡es inmenso!). Además aprendí a usar Jupyter notebook para documentar todo. El notebook lo puedes ver / bajar desde Github.

Consegui mi objetivo de representar los datos mostrados aquí. Aquí algunos pantallazos del notebook:

 

Añadiendo datos demográficos

Vinculé los datos del voto con los datos de censo públicamente disponibles (como sugirió Pybonacci), gracias). Encontré unas correlaciones interesantes (y aprendí algunas cosas de matplotlib usándolo), puedes ver el notebook aquí:

¿Cómo influye la edad en el voto por salir / quedar?

¿Cómo influye el porcentaje de paro?

¿Cómo influye un nivel más alto de estudios (educación)?

Y, ¿cómo influye el porcentaje de gente nacida fuera de Inglaterra?

Claramente, áreas con una población mayor y una tasa de paro más alta votan por salir. Por otro lado, áreas con un alto porcentaje de estudios superiores, y regiones donde más gente nacieron fuera de Inglaterra prefieren (por lo general) que Inglaterra se quede en la unión.

Lo dicho, para ver como llegué a estos resultados con Pandas el notebook está aquí.

Y por último: datos de ingresos por región

Los datos de ingresos (sueldo) eran más dificiles de obtener en los datos del censo entonces usé este enlace para comprobar la relación entre la mediana de ingresos y el voto. Encontré un patrón interesante:

(el parsing de los datos está documentado en el mismo notebook)

Se ve claramente que regiones con una mediana de ingresos más baja prefieren salir de la unión, aunque no es 100% consistente: Irlanda tiene una mediana relativamente baja pero vota por quedarse, y South East tiene un sueldo mediano más alto y, no obstante, vota por salir. Es interesante como se ve este tipo de tendencias combinando varias fuentes de datos.

Enlaces de referencia para aprender Pandas

Comentarios