Recursos esenciales para el periodista de datos (3). La limpieza de la información

image alt text

El periodismo de datos se ha convertido en una de las grandes oportunidades para esta profesión. Los grandes proyectos requieren una importante inversión, pero unos conocimientos básicos, interés y herramientas relativamente sencillas permiten realizar trabajos de gran valor.

Eso es lo que Antonio Delgado demostró en el taller de periodismo de datos que impartió en el módulo de Nuevas narrativas del Máster de Innovación en Periodismo (MIP) de la UMH. Aquí, como complemento o aperitivo, se apuntan algunos de los recursos esenciales para empezar a desenvolverse en esta innovadora especialidad.

Una vez localizada y scrapeada la información, comienza el proceso de depuración de datos. Este paso constituye uno de los más laboriosos y, al mismo, de los más determinantes para la correcta interpretación de los datos que después se quieren analizar y visualizar.

Cuando se captura información de una web y, sobre todo, de un pdf, lo más probable es que los campos de texto y de cifras presenten irregularidades e incorrecciones. El proceso de depuración puede realizarse manualmente y caso a caso, pero esto puede resultar muy laborioso e incluso inoperante cuando se trabaje con un gran número de datos. La principal herramienta para este cometido es Open Refine (antes, Google Refine).

Algunas de las principales operaciones a llevar a cabo son las siguientes:

  • Eliminar espacios consecutivos, al principio o al final de los campos.
  • Separar o unir columnas.
  • Filtrar y unificar datos.
  • Corregir erratas y agrupar registros a través de métodos como el clustering. Probablemente, ésta es la capacidad más potente de Open Refine.

Para hacerse una idea sobre este proceso, es posible ver la demostración que David Cabo realizó en la Segunda sesión formativa de periodismo de datos: Análisis y tratamiento de datos organizada por el Grupo de Periodismo de datos del Medialab Prado de Madrid.

Una vez depurados los datos, ya solo restan otros dos pasos:

  • El análisis de la información (4).
  • La visualización de los datos (5).

Todos ellos se irán desgranando, en breve y poco a poco, en este blog.

Entradas recientes

14 libros sobre periodismo y comunicación de 2024

Jose A. García Avilés

Ramón Salaverría, coordinador de IBERIFIER: “La inteligencia artificial no sustituirá al periodista, pero transformará la profesión para siempre”

Elisa Escanero

Juan Andrés Muñoz (CEO, Pamplonews): “He aprendido a integrar el servir a la audiencia hasta las últimas consecuencias; aunque te cueste, es la forma de convertir”

Jose A. García Avilés

Nacho Cardero (director, El Confidencial): “Nuestra labor de información se ha visto atacada por el poder político; sufrimos un vacío desde la Moncloa por los casos de corrupción que afectan al ejecutivo”

Jose A. García Avilés

Eva Belmonte (Civio): “Cuando cuento qué pasa con las ayudas públicas destinadas a la gente que más lo necesita, me siento útil como periodista”

Jose A. García Avilés

Los influencers de noticias y sus comunidades: ¿Por qué los ‘no periodistas’ están eclipsando a los medios?

Dámaso Mondéjar

Universidad con Sello de Excelencia Europea

La Universidad Miguel Hernández de Elche consiguió el Sello de Excelencia Europea 500+ en 2004, y posteriormente fue renovada en dos ocasiones consecutivas, la primera en 2007 y la segunda en 2009.