A blog about data, information and IT, by Mario Alberich

Oct 17
2009

Visualización de datos: Una aproximación ingénua

La razón de ser de la visualización de datos es muy representativa (valga la redundancia) de la época actual.  Tenemos infinidad de datos que necesitamos procesar, y necesitamos indicadores y técnicas para resumirlos. Sin embargo, por ahora disponemos de pocas herramientas que sean útiles y estables para estos objetivos.

Ante esta aparente falta de herramientas, mi opción es adoptar una postura ingenua y buscar referentes que me ayuden a determinar los aspectos clave.

Buscando referentes

Diagnóstico por la imagen


Por cuestiones que no vienen al caso he tenido la oportunidad de entender de cerca cómo funcionan los sistemas de diagnósticos por la imagen en sanidad.  Las técnicas de de diagnóstico por la imagen (con términos relacionados como radiografía, ecografía, contraste, TAC, PET, etc.) y su considerable cantidad de parámetros es una herramienta poco invasiva (salvo por la radiación, obviamente).  Comparémoslo con la alternativa: abrir al paciente o extraer una biopsia es algo mucho más desagradable (y doloroso).

Desde un punto de vista ingenuo, sorprende ver cómo al primer vistazo un profesional puede detectar los factores clave del diagnóstico.  Pero adentrándose en los aspectos técnicos, sorprende entender la cantidad de parámetros posibles (técnicos y humanos) que pueden afectar para que una imagen permita las garantías básicas del diagnóstico.  Por resumirlo en una frase: la clave está en combinar la focalización en los detalles sin pérdida de contexto.

Para resaltar estos detalles, la clave está en la posición del cuerpo del paciente, la potencia de la radiación emitida (los huesos de la cabeza necesitan más radiación porque son mucho más densos que, por ejemplo, el tórax), el ángulo del disparo (el encuadre de la imagen, por llamarlo así), e incluso la posibilidad que el paciente tenga los pulmones llenos de aire. Pura técnica de muestreo.

Un cambio en los parámetros altera el resultado final, con lo que se obtiene una imagen borrosa, oscura o demasiado clara. Dado que sus fines no son estéticos sino de salud, la nitidez del órgano o fragmento a radiografiar son claves para el diagnóstico.

Representación, visualización e interacción


El término clásico de representación gráfica de datos constituye el puente entre la emisión de datos y la representación visual.  Ese camino representa un gran paso para aquellas personas ajenas a las cifras. Nuestra capacidad de representar mentalmente los datos para extraer información varía fuertemente dependiendo de los conocimientos previos y la experiencia.

Sin embargo, la representación gráfica clásica se concentra en unos pocos parámetros.  Con este límite, es relativamente fácil representar datos, ya que se puede utilizar formas geométricas simples, espacios delimitados, colores concretos, y cifras fijadas.  Dada la tradicional escasez de datos, esta relación entre complejidad y resultados es más que suficiente. De hecho, va bien que sea así: cuanto más simple, mejor.

Lo que sucede actualmente es que tenemos muy a mano gran cantidad de datos. Por si fuera poco, el nivel de interrelación entre conjuntos de datos ha aumentado mucho: antes conseguir estas características era difícil, especialmente por el coste asociado al muestreo.  Ahora es una cuestión casi de rutina.

Con el aumento del volumen de los datos llegan varias consecuencias:

  • Es necesario realizar tareas de depuración y "limpieza" de estos datos.  Esta tarea es mucho más cercana a las labores de restauración (eliminar las impurezas), que al del lavado de un coche. Una limpieza con criterios erróneos conduce al sesgo de los datos y por ello a conclusiones equivocadas.
  • Los conjuntos de datos pueden implicar varios niveles de información.  Podemos tratar una muestra primaria, y relacionar este subconjunto de datos con otros datos secundarios.  Por ejemplo: podemos tratar el nivel de ventas de un producto en varias zonas geográficas, y en un segundo nivel podemos analizar factores sociodemogràficos de cada zona como la natalidad, niveles de estudios, distribución de riqueza, etc.
  • Es necesario reinventar la forma de representar estos datos, ya que la linealidad de las representaciones gráficas clásicas ya no son tan útiles para transferir ideas.  Esto depende también del público al que se dirige, sus conocimientos, circunstancias, o motivaciones. La representación de los datos debe reflejar los estratos de la relevancia.
  • La disponibilidad casi en tiempo real de algunos datos permite pensar en representaciones visuales actualizables, que evolucionan cambiando de color, tamaño u otros efectos. Estas alteraciones reflejarían cambios cualitativos que afectan al equilibrio del conjunto.
  • Un usuario capacitado puede extraer más conclusiones si tiene la posibilidad de modificar perspectivas, filtrar ciertos datos y establecer un "camino" en la representación. Ese camino transcurre desde sus dudas hasta las conclusiones.


Los aspectos interesantes, bajo mi punto de vista, radican en la posibilidad de establecer sistemas más personalizables de visualización de datos, organizados en niveles de representación, y combinados con la posibilidad que el usuario interactúe, con el objetivo de agruparlos, disgregarlos, relacionarlos, etc.

Creo que estos tres niveles (visualización, organización e interacción) corren paralelos a los niveles de información (datos, información y conocimiento). Los datos con un buen nivel de interacción y personalización podrían transmitir un mensaje adecuado para el receptor (por contraposición a un mensaje predefinido por el emisor), que mejora la transferencia de ideas.

Qué podemos extraer de la visualización de datos

  • Menor tiempo (y procesos intermedios) entre generación de datos y toma de decisiones.
  • Disponibilidad de un solo entorno para los distintos niveles de decisión.
  • Capacidad para extraer y representar subgrupos de información mediante una interacción visual, descartando en gran parte las consultas textuales.
  • Vinculación de recursos adicionales (archivos audiovisuales, comentarios de los usuarios, etc.).
  • La forma de interacción puede ser similar al de una Wiki, en la que los comentarios de los usuarios pueden ayudar a extraer el conocimiento.
  • Integración de estos datos con entornos virtuales/simulados de una organización. Es decir, un sistema de realidad aumentada que conecte los datos con el entorno real en el que se generan (por ejemplo en una planta de producción).
  • Cerrar el ciclo: analizar las interacciones de los usuarios con la visualización, para explicitar el proceso de toma de decisiones, la detección de comunidades y el filtrado.
  • Selección y agrupación de estos datos, informaciones y documentos para la generación de informes estructurados, que puedan servir para la difusión externa (publicidad, informes, resúmenes) o interna (formación de empleados, comunicación interna, etc.).

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.