A blog about data, information and Tech by Mario Alberich

        

oct. 6
2013

Periodismo en la era de los datos (#ddj #dataviz)

Aunque las infografías y la presentación de datos ya tienen precedentes desde muchos años atrás, la introducción masiva de los conjuntos de datos, su mayor accesibilidad, y la cada vez mayor disponibilidad de herramientas para tratarlos está cambiando el enfoque de la profesión periodística. Creo que ésta puede ser una de las profesiones con más potencial de aprovechamiento.

Pero, ¿Por dónde empezar a aprovechar? ¿Qué criterios y fuentes están disponibles? Y sobretodo ¿Cómo presentarlos de una forma atractiva y significativa?

Desde Stanford desarrollaron hace unos cuatro años este vídeo, que ayuda a aclarar la situación actual, y las preguntas a las que se quiere responder:

Journalism in the Age of Data from Geoff McGhee on Vimeo.

Por desgracia no parece estar disponible con subtítulos, por lo que escucharlo en inglés parece la única opción posible.

Aunque he incrustado el vídeo en este mismo artículo, recomiendo verlo (al menos parcialmente) en la página del proyecto, ya que la reproducción del vídeo viene acompañada por la presentación sincronizada de información adicional.

Read more »

oct. 4
2013

Sutilezas del color en #dataviz (observatorio de la tierra de la #NASA)

Si en el origen de la representación gráfica encontramos el vinculo en la geografía y la creación de mapas, parece que esa tradición se mantiene e incluso está en auge.

No es que sea exactamente desde el portal de la NASA, sino desde su blog, desde el cual se ha publicado una serie de artículos exponiendo las bases conceptuales del color y sus aplicaciones.

Aquí la lista de artículos de la serie:


El color es uno de los elementos que intuitivamente (preatentive) nos ayudan a detectar patrones. Usarlo a nuestro favor evitará ruido en nuestros gráficos.

Read more »

oct. 2
2013

Visualizar dinàmicamente el proceso de crawling de #googlebot con #gephi

Más allá de los simples gráficos, en cuanto a complejidad se refiere, encontramos los grafos. Y en este caso hay una herramienta especialmente interesante: Gephi.

Como ejemplo interesante de uso, podemos generar un proceso de visualización sobre cómo Googlebot captura nuestros contenidos de nuestra web, partiendo del análisis de los logs de Apache.

Pero tiene más aplicaciones, algunas de ellas muy relevantes para la exploración de datos:

Con los datos necesarios, es posible realizar mapas como los de linkedIn, y empezar a analizar a fondo las características de los nodos.

Más allá del ejemplo particular, hay dos enlaces interesantes para seguir aprendiendo con Gephi:

Read more »

sept. 30
2013

Chartbuilder abre su código - Basado en d3.js

No he tenido la ocasión de probar esta herramienta, aunque probablemente se puede sumar a la lista de utilidades que proponía School of Data para simplificar el uso de D3.
</p>

</p>

En este caso se trata de Chartbuilder, disponible en Github, bajo licencia MIT, liberado hace apenas dos meses.
</p>

</p>

Leí la noticia a través del blog de Nieman Journalism Lab. Cada vez se demuestra más importante la habilidad para trabajar con gráficos que simplifiquen la presentación de datos. No es un problema nuevo. Como en el mismo artículo comentan, Paul Krugman se lamentaba de ello en el 2009. Y probablemente muchos otros antes.
</p>

</p>

Seguirán apareciendo herramientas de este estilo. No sé cuánto tardaremos en ver niveles de interactividad y versatilidad similares a herramientas comerciales como Tableau, pero es cuestión de tiempo.
</p>

Read more »

sept. 29
2013

Sonido en algoritmos y Wikipedia

No todo el mundo entiende el funcioamiento de los algoritmos paso por paso. Hay ciertos perfiles que requieren partir del ejemplo, e incluso tener la ayuda de otros sentidos, como la vista o el oído. Para ellos, estos dos recursos.

Escuchar el sonido de la ordenación


Por un lado, los patrones sonoros y visuales que provocan 15 algoritmos de ordenación de datos. Estos algoritmos son, por razones obvias, muy importantes para el procesado de datos, y tanto el uso de memoria como la velocidad final son críticos. ¿Y cuál es el mejor? Observa el vídeo y notarás las diferencias. En la parte superior izquierda aparecen el nombre del algoritmo y el número de operaciones que realiza:

Edición sonora de Wikipedia


Selecció_014

Puedes caer en un profundo sueño mientras escuchas los sonidos generados por esta animación sonora, sobre la edición de artículos de Wikipedia. La información se captura a través del feed de cambios recientes. Las campanas indican los añadidos y los sonidos de cuerda indican las eliminaciones de texto.

Los cambios en el tono son proporcionales al tamaño de la edición: cuanto más larga es la edición, más grave es la nota.  Los círculos verdes se refieren a los contribuidores no registrados, y los círculos violeta marcan las ediciones realizadas por sistemas automáticos (bots). Puedes ver las notificaciones de nuevos usuarios a medida que se unen al sitio de la visualización con el sonido de un conjunto de notas de cuerdas.  Puedes "saludarles" clicando en el banner azul y añadiendo una nota en su página.

El proyecto ha sido creado por Stephen LaPorte y Mahmoud Hashemi utilizando D3 y HowlerJS. Se ha basado en el proyecto Listen to Bitcoin de Maximillian Laumeister.

El código del proyecto está disponible en GitHub, donde puedes encontrar más información al respecto.

 

Read more »

sept. 26
2013

Espa&ntilde;a en llamas: la dificultad de obtener la información

El proyecto España en llamas se promocionó desde la fundación Civio para recopilar la información sobre los incendios forestales en España a lo largo de los años. Posteriormente obtuvo la financiación necesaria vía goteo.org, y echó a andar.
</p>

</p>

Este proyecto es un caso especialmente representativo del "trabajo embarrado" que supone crear estadísticas económicas y sociales donde no estaban planteadas. Ante la búsqueda de datos sobre una estadística económica y social "estándar", un ciudadano puede empezar a realizar su búsqueda en el INE, Eurostat o simliares.
</p>

</p>

Pero ¿Qué sucede cuando los datos en sí se encuentran recopilados en fuentes dispersas y no están sistematizadas? La operativa empieza a topar con obstáculos debidos a una burocracia que no tiene ese objetivo. Esa complejidad que sólo se centra en recopilar los datos pasa por:

</div></p>

  • Identificar las instituciones responsables.
  • Solicitar y/o obtener los datos (este proceso puede implicar transcripciones, fotocopias, personas que buscan y extraen informaciones de contenidos textuales, etc.).
  • Intentar organizar de forma sistemática toda esa información, tratando de coordinar los datos en base a elementos comunes (por lo general, fechas y ubicaciones).

  • </ul>
    </div></p>

    Tratar de entender lo pesado que puede ser extraer y sistematizar toda esta información sólo se puede conseguir de una manera: probándolo. No es por contar batallitas, En mis años mozos tuve mis días y semanas de recopilar datos para trabajos universitarios, a menudo en base a fotocopias y posterior transcripción a hoja de cálculo. No es la tarea más agradecida. Un bravo por ese trabajo, y espero que sigan adelante.
    </p>

    </p>

    El resultado es el que se puede ver en su mapa interactivo de incendios, que muestra datos de incendios hasta el 2011.
    </p>

    Read more »

sept. 24
2013

Donde pone estadístico, lea usted Data Scientist

No es nada que ya haya sucedido en otras profesiones, como fue el caso de la introducción del término content curator.

Se supone que debería empezar a hacer una tarea de buscar y remplazar en algún currículum, porque parece que la profesión de Estadístico ya no se busca. Pero cada vez más se busca el Data Scientist (científico de datos) Según el autor, la gente ya no busca la profesión de estadístico:

 

Y aunque es cierto que parecería ser cierto, me parece discutible la fiabilidad del criterio en el que se basa la afirmación. Dado que Data Scientist es un término nuevo, ¿no tiene sentido que la gente busque ese nuevo término para entender lo que significa?

La razón por la que aparece un nuevo término para una disciplina anterior puede responder a dos motivos principales:

  • Acuñar un nuevo término puede mejorar las perspectivas comerciales. Es decir, Estadístico no vende, pero Data Scientist puede que sí.
  • Integrar a esa disciplina un conjunto de metodologías nuevas, junto con un contexto de aplicación que modifica substancialmente las atribuciones. A pesar del big data, a mí no me lo parece.


Lo que sí creo que no deja lugar a dudas, es que la tarea de analizar datos crece en demanda a un ritmo (aparentemente) superior a la oferta. Eso sí, se diría que esto sucede más bien al otro lado del charco (exceptuando UK), donde no sólo Estados Unidos y Canadá, sino también latinoamérica se está activando, progresivamente, en la liberación de datos. No es que sea una relación directa, pero en este último caso es de esperar que exista una relación entre ese proceso y la conciencia de la utilidad de los datos.

Así que, por favor, donde sea que lea usted la palabra Estadístico en este blog, interprete usted Data Scientist.

Read more »

sept. 23
2013

Big data, Big insights, y plantear bien las preguntas

Sinan Aral ha presentado en HBR una muestra de lo que están trabajando en el departamento de I+D del New York Times. En el artículo "To Go from Big Data to Big Insight, Start with a Visual", lo explican con detalle y fantásticas visualizaciones.

¿Por qué lo hacen?

 More importantly we are interested in how the word-of-mouth conversation drives readership, subscriptions, and ad revenue; how the Times can improve their own participation in the conversation to drive engagement; how we can identify truly influential readers who themselves drive engagement; and how the Times can then engage these influential users in a way that complements the users' own needs and interests.


Estas son las preguntas que tratan de responder al empezar los análisis. Y a partir de ahí, tienen claro que:

What these visuals do help with is getting us to know where to look and what questions to ask of the data. That is, we can't build the more complex models until we know the most suitable places for building them. These visuals give us some of that insight.


... hay que seguir preguntando, hasta que los datos confiesen.

Una fantástica muestra del enfoque en el análisis, para obtener resultados prácticos, y sobretodo rentables.

Read more »

sept. 19
2013

Datos, cultura cuantitativa y calidad democrática

</p>

</p>

¿Todo el mundo debe tener una opinión sobre todo?
</p>

¿Todos podemos analizar lo que sucede en cualquier ámbito?
</p>

¿Cómo podemos introducir un papel facilitador para mejorar nuestra opinión?
</p>

¿Cómo puede ayudar esto a mejorar la transparencia y la gobernabilidad?
</p>

</p>

Esas son algunas de las preguntas que (a mi entender) trata de analizar el artículo de David Cabo (civio) y Raúl Magallón (blog).
</p>


Me quedo con el siguiente fragmento, aunque desde luego este artículo con numerosas referencias a otros autores da para mucho, muchísimo más:</div></p>

La principal conclusión de la misma era que en la medida en que obtenemos una información sobre una problemática concreta (que se convierte en conocimiento), el grado de implicación -así como de actitud de diálogo- aumenta; de la misma forma que se moderan y se matizan las opiniones, se proponen alternativas y aumenta la percepción de eficacia en las campañas educativas.
</blockquote></p>

Lo dicho, este fragmento es una pizca ínfima de lo que da de sí el artículo. Bajo mi punto de vista, documento de obligada lectura.
</p>

Read more »

sept. 18
2013

Visualizar ciudades

últimamente se han puesto de moda las visualizaciones de ciudades. En realidad no es tan extraño: su representación gráfica es más simple porque tiene medidas objetivas, éstas empiezan a estar disponibles en fuentes abiertas, y es un contexto en el que se genera un gran volumen de estímulos (que luego se conviertan en datos o no, ya depende de los sensores disponibles).

Pero volviendo al tema: aquí recopilo unas cuantas que me han encantado:


Pero la que para mí se lleva la palma es la de Singapur, aunque más que una visualización, es un proyecto de conjunto:

Read more »

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.