A blog about data, information and IT, by Mario Alberich

Apr 24
2018

El proyecto GDELT

[ data engineering  sentiment analysis  cloud computing  google  ]

En el proceso para encontrar fuentes de datos, es habitual encontrar proyectos que tengan alguna característica excepcional en alguno de sus aspectos: el contenido, la tecnología o la metodología de análisis.

Esto tiene su lógica, ya que en muchos casos el foco del proyecto es en responder preguntas en un área concreta.

Es por eso que me parece excepcional encontrar un proyecto como el de GDELT.

La receta perfecta

Con unos ingredientes excepcionales:

  • Alcance mundial, con traducción desde 65 idiomas.
  • Uso de la tecnología de Google, tanto para la obtención del contenido como para su tratamiento. Esto incluye no sólo su traducción y análisis textual, sino también funcionalidades como la detección de objetos en las fotografías.
  • Indexación y catalogación de las noticias mediante una serie de estándares (principalmente CAMEO) que permiten integrar las noticias en múltiples contextos.
  • Generación de indicadores y contenidos de forma automatizada.

¿Qué sucede si se recopila gran parte de la cobertura de los medios de todo el mundo y se intenta generar un mapa con las menciones de personas e instituciones, el tipo de reacciones que hay entre ellos, el sentimiento que se desprende de esos textos…?

Eso es el proyecto GDELT, que inicialmente surgió como un proyecto para anticiparse a los conflictos internacionales, y en especial a las crisis humanitarias.

Uso de los datos y aplicaciones

El proyecto saca mucho jugo a los datos obtenidos, pero a su vez pone a disposición del público de manera gratuita la descarga de los enlaces a las noticias, las menciones que se han detectado en tales textos, el tono y otras tecnologías, así como otros aspectos que se detallan en el listado de datasets.

En el camino que lleva al análisis de esos datos van generando cosas de utilidad como el daily trend report y el world leaders index.

Otra de las curiosidades son los gráficos incrustables sobre los indicadores analizados para la detección de conflictos. El siguiente es un gráfico del indicador de intensidad, descrito en CAMEO, para la región de Estados Unidos. Es posible visualizar los indicadores para países y regiones administrativas más concretas.

Fuentes de datos de libre disposición

El proyecto pone a disposición del público sin ningún cargo una serie de archivos para poder ser usados como se considere oportuno:

  • Listado de los archivos CSV generados.
  • Un archivo individual para cada franja de 15 minutos, incluyendo enlaces a las últimas noticias.
  • Enlace a los lenguajes de catalogación/indexación/categorización utilizados.

Para más detalles, puedes ver los enlaces que hay al final de este artículo en su blog sobre los datasets utilizados.

¡Buen provecho!

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.