A blog about data, information and IT, by Mario Alberich

May 01
2014

El cuarteto de Anscombe, cuando la forma importa

Tómate un minutillo para hacer unos cálculos sobre estas dos muestras de datos:

  • 1, 2, 3, 4, 5
  • 1, 2, 3, 4, 100


¿Cuál es la media? ¿Y la mediana?

Si lo has calculado, habrás comprobado que la media se adapta al valor extremo (100), por lo que cambia de 3 a 22, pero que en cambio la mediana se mantiene impasible ante el cambio.

Lo primero que pasa por la mente de mucha gente es que han cometido un error al calcular. La segunda fase es que la fórmula o el sistema de cálculo está equivocado: ¿Para qué quiero que la mediana se mantenga inmóvil después de un cambio tan extremo? Y aquí es cuando llegamos al meollo del asunto: la media y la mediana se crearon para fines muy distintos.

Hormas, zapatos, árboles y bosques


Los métodos numéricos se comportan perfectamente para extraer porciones de información de cada individuo y luego ponerlas en común para toda la muestra, aplicando algún tipo de agregación. Sin embargo la potencia de estos procesos parece reducirse cuando entra nuestra capacidad humana de interpretar los datos mediante métodos menos lineales, como la forma de los datos en cuanto los representamos.

Porque eso es lo que sucede cuando representamos los datos en al menos dos dimensiones: lo que nuestro razonamiento sudará para encontrar, nuestro ojo lo procesa en décimas de segundo.

El cuarteto de anscombe: cuando las cifras no lo explican todo


[caption id="attachment_27850" align="alignleft" width="300"]anscombe quartet anscombe quartet[/caption]

La imagen lateral son cuatro gráficos, conocidos como el cuarteto de Anscombe, y son un ejemplo clave para entender la diferencia entre nuestra capacidad para procesar números y para identificar los gráficos.

En los cuatro gráficos, los valores para los principales indicadores estadísticos (media y varianza de x e y, correlación) y la recta de regresión, son idénticos (hasta el tercer decimal). Si tapáramos los gráficos anteriores y sólo mostráramos los indicadores anteriores, sería muy difícil deducir las grandes diferencias entre ellos.

Es en estas situaciones, especialmente cuando en un proceso de análisis pueden aparecer gráficos tan dispares (lo cierto es que no siempre es así), en el que el análisis exploratorio de datos y la representación gráfica nos ayuda a tener una idea de lo que los datos nos deparan.

Al fin y al cabo, el análisis y la representación gráfica pueden cooperar.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.