A blog about data, information and IT, by Mario Alberich

Apr 22
2014

Visualizar para inducir, analizar para deducir

Quieres comerte una naranja y la pelas, porque la corteza de naranja es amarga y no te gusta, ¿cierto? Pero claro, luego viene tu madre, o tu abuela, y te dice que no tires la pela. Y con eso ellas te cocinan una especie de almíbar que luego añadirán al bizcocho que vas a disfrutar de lo lindo. Y así te das cuenta que te has estado perdiendo algo, tirando a la basura todas las pelas de naranjas anteriores.

Acéptalo: en el mismo momento en que empiezas a muestrear y analizar, descartas una información para centrarte en otra. Eso es la estadística y en general el método científico: tratar de separar y aislar (analizar significa etimológicamente separar) el grano de la paja, la información del ruido.

Pero esa separación requiere un conocimiento previo, que minimice el sesgo (desviaciones de la media) y el ruido (incremento de la varianza). Se trata de evitar que la muestra de datos quede envenenada, extirpando lo mejor posible el ruido, como si cocináramos un pez Fugu.

¿Visualizar datos o analizarlos?


Nuestros sentidos se han adaptado al mundo en el que nuestros antepasados sobrevivieron. Un mundo en tres dimensiones, y en los que sólo nos fue necesario oír un rango de colores y sonidos para detectar a nuestras presas y evitar amenazas. Ese cerebro que busca patrones sensoriales desde que nacemos es a veces muy limitado para otras tareas más abstractas.

Por ejemplo, sólo es capaz de ver en tres dimensiones. En realidad puede ver cuatro, si una de ellas puede ser representada en un eje temporal, y unas cuantas más si utilizamos colores y tamaños. Pero en lo relativo a la representación puramente espacial, tenemos esa limitación, por lo que los modelos con más variables no son representables gráficamente.

Esa es la limitación de la geometría, y el motivo de la importancia del álgebra. Ante esas situaciones, el álgebra y otros métodos de análisis entran en juego. El cálculo matricial, los sistemas de cambios de coordenadas y cambios de base en general, nos permiten reorganizar los datos según convenga (en el sentido más científico posible) para según nuestros objetivos.

Sin embargo todos estos métodos tienen más bien un carácter poco visual. Es difícil intuir (en el mirar hacia dentro en un sentido etimológico) analizando los datos a base de cálculos puros. Es más, en cuanto se pierde el contacto con la intuición, la maquinaria de los métodos numéricos nos puede conducir a errores por seguir a ciegas una metodología. Creo que este es el punto en el que muchos estudiantes de asignaturas de estadística se quedan colgados y empiezan a odiar la estadística, pero eso es un tema para otro post.

Entonces, veamos: ¿y si sacamos lo mejor de ambos mundos? ¿Qué tal analizar para simplicar y reducir las dimensiones, y luego representar visualmente esos datos para ver si nuestras operaciones tienen sentido?

Analizar para Visualizar


Este enfoque permite que ambas aproximaciones cooperen en nuestra búsqueda de conclusiones:

  • Representaciones en dos dimensiones, especialmente mediante gráficos de dispersión o scatter plots, que permiten identificar fácilmente relaciones de causa y efecto.
  • En ciertos casos se acostumbra a presentar una matriz de gráficos de dispersión, para representar el cruce de más de dos variables.
  • Generar modelos lineales y no lineales, para agregar varios factores en un solo modelo, y así poderlo representar en un solo gráfico. Lo que se aplica en este caso es un cambio de base: la recta de regresión se puede convertir en un eje.
  • Gráficos que representen los indicadores estadísticos más básicos. Por ejemplo gráficos blox-plot y similares.


Existe una gran cantidad de métodos para representar visualmente los datos, muchos de los cuales son específicos de la metodología de análisis o del tipo de datos que se están analizando. Sin embargo, ante el debate sobre cuál de los dos es mejor, la respuesta es sencilla: combinar ambos en el punto adecuado es mucho mejor.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.