Recursos esenciales para el periodista de datos (2). La extracción de información

image alt text

El periodismo de datos se ha convertido en una de las grandes oportunidades para esta profesión. Los grandes proyectos requieren una importante inversión, pero unos conocimientos básicos, interés y herramientas relativamente sencillas permiten realizar trabajos de gran valor.

Eso es lo que Antonio Delgado demostró en el taller de periodismo de datos que impartió en el módulo de Nuevas narrativas del Máster de Innovación en Periodismo (MIP) de la UMH. Aquí, como complemento o aperitivo, se apuntan algunos de los recursos esenciales para empezar a desenvolverse en esta innovadora especialidad.

Una vez que se conoce cómo encontrar o solicitar la información, comienza el proceso de extracción de datos. Cuando resulta imposible obtener archivos en el formato adecuado, resulta imprescindible convertir o arañar (scrap) la materia prima. Éste es el orden, de menor a mayor efectividad, propuesto por Antonio Delgado para los principales formatos:

  • Papel
  • pdf con imágenes.
  • pdf con texto.
  • html
  • txt
  • xls
  • csv

Cuando se obtienen documentos en papel con gran cantidad de datos, el primer paso suele ser el escaneo. De este modo, se obtiene un pdf con imágenes a las que se les debe aplicar un Reconocimiento óptico de caracteres (OCR). Antonio Delgado recomendó los siguientes programas para realizarlo:

Cuando se disponga de un pdf con texto, entra en juego lo que se conoce como scraping. Antonio Delgado recomendó los siguientes programas (todos gratuitos):

Si los datos están en la web, habitualmente en formato html, existen otras herramientas específicas.

Para el navegador Chrome, se pueden instalar diversas extensiones:

En Firefox, destacan éstas otras:

Y, finalmente, también pueden descargarse estas dos aplicaciones que, aunque resultan algo más complejas, disponen de un mayor número de opciones:

Como Antonio Delgado señaló, ninguna herramienta se adapta a todas las necesidades. En función de la naturaleza de los datos que se quieran extraer, unas resultan más útiles que otras. Lo importante es que la información incialmente dispersa o inoperante se convierta en una base de datos o una hoja de cálculo desde la que operar.

A partir de este punto, la mayor parte de los trabajos de periodismo de datos requerirán otros tres procesos:

  • La limpieza de los datos (3).
  • El análisis de la información (4).
  • La visualización de datos (5).

Todos ellos se irán desgranando, en breve y poco a poco, en este blog.

Entradas recientes

14 libros sobre periodismo y comunicación de 2024

Jose A. García Avilés

Ramón Salaverría, coordinador de IBERIFIER: “La inteligencia artificial no sustituirá al periodista, pero transformará la profesión para siempre”

Elisa Escanero

Juan Andrés Muñoz (CEO, Pamplonews): “He aprendido a integrar el servir a la audiencia hasta las últimas consecuencias; aunque te cueste, es la forma de convertir”

Jose A. García Avilés

Nacho Cardero (director, El Confidencial): “Nuestra labor de información se ha visto atacada por el poder político; sufrimos un vacío desde la Moncloa por los casos de corrupción que afectan al ejecutivo”

Jose A. García Avilés

Eva Belmonte (Civio): “Cuando cuento qué pasa con las ayudas públicas destinadas a la gente que más lo necesita, me siento útil como periodista”

Jose A. García Avilés

Los influencers de noticias y sus comunidades: ¿Por qué los ‘no periodistas’ están eclipsando a los medios?

Dámaso Mondéjar

Universidad con Sello de Excelencia Europea

La Universidad Miguel Hernández de Elche consiguió el Sello de Excelencia Europea 500+ en 2004, y posteriormente fue renovada en dos ocasiones consecutivas, la primera en 2007 y la segunda en 2009.