A blog about data, information and IT, by Mario Alberich

Aug 14
2013

Transparencia, claridad y Big Data

Un interesante ejemplo de los riesgos por el exceso de datos disponibles lo retrataba hace un par de semanas el blog del colegio de periodismo en su blog de la BBC.  No comparto al completo la visión, pero sí los efectos primarios (sesgo) y secundarios (toma de decisiones errónea) debido a un problema relativamente nuevo: el exceso de datos.

Lo cierto es que el Big Data me tiene el corazón dividido. Leyendo un reciente artículo de Yusef sobre Data (que no sólo me ha valido la pena leer, sino que a su vez referencia artículos muy interesantes), comparto el hecho que el término es puro marqueting, y que el objetivo es vender más hardware para centros de proceso de datos; que los algoritmos no habrán mejorado tanto en los últimos años. Y que si has llegado al Big Data porque pensaste que era algo totalmente nuevo, te equivocaste.

Intento ceñirme estrictamente al tema de la utilidad del Big Data.  Dejo a un lado las consecuencias en la privacidad, y otros debates que me parecen relevantes para esta temática. Me gustaría verlo desde el punto de vista más técnico.

Porque claro, eso es el mercado.  No veo yo ningún sector en el que eso de intentar vender, no suceda.  Lo que ahora es Big Data, antes fue data mining, inteligencia artificial,... Y así podríamos ir tirando del hilo hasta llegar al momento en que la informática y las matemáticas (o directamente la estadística) cruzaron sus caminos (y eso fue bastante pronto). Eso, el uso del márqueting para vender más, desde los ojos de un técnico, es ignorable.

Tambien, mientras imagino ese volumen de datos, pienso en la cantidad de ruido que habrá. Y aunque no es deseable, también es intrínseco al análisis.  Antes de decidir la señal que queremos extraer de los datos, estaba el ruido. La señal no es más que una porción del ruido que responde a nuestras preguntas.  Entonces, en ese ruido está el sonido que buscamos. El ruido, a pesar de todo, es deseable. Porque el ruido es contexto.

Filtrar ese ruido tiene su intríngulis. Pero por ejemplo, ese filtrado puede ser iterativo. Incluso puede hacerse después de recopilar datos en bruto (con el permiso de las políticas de uso de las APIs). Tener una buena base de datos y que un técnico pueda responder con algunos càlculos a las preguntas que le caen al vuelo, formuladas por un responsable de negocio: no veo yo que sea para tirarse de los pelos. Si sólo se dispone de los datos estrictamente necesarios para llevar a cabo un experimento, el resto de preguntas quedan fuera.

Por eso, cuando pienso en la parte Big del término, no me sugiere el volumen de datos: más bien pienso en la cantidad de preguntas que pueden responder y que antes no podíamos preguntarle a los datos. Desde mi punto de vista el Big Data es el mar, o el acuario. Es el espacio en el que se desarrolla (o simula, o analiza) todo un ecosistema. No son solo los datos, sino también el contexto que podemos apreciar si podemos aprovechar esos datos. Es lo que permite trabajar con los datos como si estuviéramos en un entorno real.

Por eso, es cierto que si un estudio está enfocado (y eso me parece correcto) hacia preguntas muy concretas, este volumen de datos es excesivo. Pero rechazar el Big Data porque tiene ruido, o porque  el conjunto de datos no da valor en conjunto, pues no lo comparto. El mar está lleno de espacios vacíos. Y de peces. Es una cuestión de reenfoque.

Sería como si el pescador no pescara más porque hoy no ha capturado nada. Ese pescador no se da cuenta que el propio hecho de no haber capturado nada hoy, le está dando información sobre su contexto de pesca, que le puede ayudar a tomar decisiones. Y que sin ese mar, no tendría esa posibilidad. Ese pescador está aprendiendo a pescar. Encontrará más valor buscando las corrientes de agua y los arrecifes. Esto le llevará tiempo. Pero si le gusta pescar, aprenderá.

Me planteo una actitud diferente ante el Big Data. Cambio el proceso de análisis a fondo, por un enfoque más contemplativo. Cambio el contraste de hipótesis por un buen análisis exploratorio de los datos. Cambio las respuestas, por las historias que hay detrás.

Pero quizá me equivoque. Es probable ;-).

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.