24-02-2015

Open Data Day y el hackathon de datos abiertos

Versión en inglés

Este pasado sábado 21 de febrero se celebraba el Open Data Day, un día en el que se promueve la publicación de datos administrativos y gubernamentales. Con este objetivo, se organizó un hackathon (maratón de programación) a lo largo de todo el fin de semana, que pretendía demostrar la utilidad de estos datos abiertos mediante análisis y minería de datos, visualizaciones y gráficos, etc.

El Open Data Day en Granada

En particular, en Granada fue la Oficina de Software Libre de la Universidad de Granada la que organizó el hackathon local para la ocasión. En él, se presentaron tres proyectos distintos de forma que los participantes del hackathon se unieran a uno de ellos y colaboraran desde el viernes hasta el lunes. Estos tres proyectos trataban temas bastante distintos:

  • Scraping y análisis de datos del ayuntamiento, propuesto por el periodista de datos Incho Cordero. Esta iniciativa proponía recuperar contratos del ayuntamiento de Granada, sobre todo de obras y similares, para realizar un estudio sobre las empresas contratadas y los costes de dichos contratos, tras un proceso de scraping previo para extraer la información de los PDFs en los que se publica.
  • Monitorización y predicción del estado de tráfico, a raíz del Proyecto PETRA. El proyecto en cuestión utiliza unos dispositivos de bajo coste que rastrean señales de Bluetooth y Wi-Fi para detectar coches mediante los manos libres y móviles. De esta forma se obtienen datos sobre el paso de los dispositivos en distintos puntos de las carreteras y se pueden utilizar para, a partir de cambios ligeros en el tráfico, predecir distintos estados futuros.
  • Comparación de portales de transparencia universitarios, presentado por Mario Heredia, Mónica López, Germán Martínez… Este último proyecto consistía en utilizar los portales de transparencia de las distintas universidades españolas, para realizar comparativas acerca de los datos que proporcionan y de las universidades en sí, incluyendo scraping de los datos que estuviesen en formatos poco accesibles.

El hackathon con el proyecto PETRA

Me apunté al hackathon del proyecto PETRA sencillamente porque prometía más ciencia de datos y menos temas político-administrativos, por lo que resultaba más interesante que los otros dos. El objetivo durante el fin de semana fue encontrar fuentes de datos de tráfico, extraer esos datos y publicarlos, para después tratar de realizar visualizaciones sobre mapas.

Gracias a que el equipo estaba compuesto por gente de conocimientos muy diversos, tanto distintos lenguajes de programación como distintas materias sobre minería y visualización de datos, se pudieron distribuir tareas y proponer ideas, todo en forma de issues del repositorio, que combinadas llevarían a cabo los objetivos, entre ellas:

  • Extracción de los datos de paso de vehículos por estaciones de la DGT
  • Concatenación y preprocesamiento de dichos datos
  • Estudio y obtención de datos de diferentes APIs de tráfico
  • Minería de datos y clasificación con WEKA
  • Estudio de plataformas de mapas
  • Estudio de librerías de gráficos para visualización de datos
  • Hacer un logo para el proyecto

Todos los resultados están publicados en el repositorio dedicado al hackathon, incluyendo el archivo CSV con los datos de la DGT acerca de las estaciones de monitorización, extraídos de varios PDFs; los scripts utilizados para preprocesarlos; el código de obtención de datos de APIs en R; el estudio de recursos para gráficos y mapas, y cómo no, las propuestas de logo para el proyecto.

Además de esto, se realizaron algunos gráficos en Google Fusion Tables, se extrajo información interesante mediante Weka y se publicaron también los datos en una aplicación web realizada con Shiny. Todo esto se resumió en la presentación de conclusiones para el lunes.