A blog about data, information and IT, by Mario Alberich

Feb 23
2009

Variables aleatorias, la semilla estadística

Del principito a la campana de Gauss


En el cuento de Saint-Exupery, el Principito se harta de enseñar el dibujo que los mayores identifican como un sombrero, cuando en realidad él dice que es una serpiente que se ha tragado a un elefante.  La gente se echa a reír.

En la historia, la diferencia de visiones sobre el mismo dibujo es una muestra de la distancia entre los que se han acostumbrado a ver la realidad de un modo, y los que la perciben de un modo diferente, planteando que quizá lo esencial sea invisible.

Eso es lo que sucede cuando se trata de tratar con variables aleatorias.  Todo el mundo puede entender lo que es una campana de Gauss porque la ve. Sin embargo, a menudo cuesta entender que nunca nos encontraremos cara a cara con una muestra de datos reales que sean idénticos a esta campana.  Argumentar que necesitaríamos un número infinito de datos empeora el tema.

Porque, claro, relacionar la campana de Gauss con probabilidades, tiene su intríngulis.  Hay que entender cómo la serpiente se ha podido tragar al elefante.

Las bases de la estadística probabilística surgieron en los salones de juego de cartas.  Comprender que se repetían ciertos patrones y frecuencias inspiró a matemáticos como Pascal a analizar matemáticamente lo que sucedía en esas situaciones.

Así, lo que acaba convertido en fórmulas (la serpiente) fue fruto de numerosos análisis matemáticos sobre datos reales, o cuanto menos, supuestos plausibles (los elefantes).  En matemáticas es posible que una serpiente (una fórmula matemática) pueda tragarse un elefante (cada uno de los infinitos casos reales). Aunque tenga un cierto sabor Freudiano, las serpientes estadísticas se crean para poder tragar elefantes.

Del punto a la línea


Pasemos a un ejemplo.  Piensa en un puntero láser, de esos que a veces se utilizan en presentaciones. Es un pequeño artilugio que emite una luz muy concentrada que proyecta a una cierta distancia sin dispersarse.  Imagínalo enfocado hacia una pared, mostrando en ella el punto rojo.

Ahora imagínate que lo estás moviendo creando una forma concreta (un círculo, una elipse, un ocho...).  Lo mueves cada vez más rápido, más rápido...  A medida que aumentas la velocidad, tu ojo deja de ver el punto en movimiento. Si consigues moverlo muy rápido, verás una línea continua, una figura.

Graba esa forma en tu mente.  Si fueras capaz de mover tan rápido el puntero como para situarlo al azar en algún lugar concreto de esa línea continua, tienes algo muy parecido a una variable aleatoria.

De algún modo, las variables aleatorias son eso: puntos que se mueven de un modo que les es característico, pero cuya ubicación individual no es totalmente predecible: sólo probable.

Bajando a la realidad


Como decía una profesora de filosofía (admiradora de Platón para más señas): "bajar del mundo de las ideas a la realidad es un palo de tal calibre...".

La realidad quizá no sea tan dura si nos la tomamos a sorbos.  Nuestros sentidos están acostumbrados a recoger sólo una parte de la información que fluye en el ambiente, y nuestro cerebro es capaz de resaltarnos lo importante.  Su funcionamiento no es perfecto, pero tiene un objetivo claro: tomar decisiones para mantenernos vivos.

Esa imperfección es suficiente para decidir. Y de eso mismo trata la estadística. Ni necesitamos ni somos capaces de absorber toda la información: podemos decidir con menos. La cuestión es saber cuánta información necesitamos para que acertar sea muy probable.

En nuestro día a día, la /figura/ nunca aparece completa. Lo único que nos encontramos son puntos que no sabemos en qué figura encajan. La labor estadística es encontrar la forma donde mejor encajan esos puntos.

Lo habitual es que con un solo punto no sea suficiente.  Hay que seleccionar unos cuantos para tener una idea de la figura más parecida.  Es un ejercicio parecido al de "unir los puntos", pero en versión matemática.

El proceso que nos conduce del punto a la figura pasa por dos fases principales:

  • Seleccionar la mínima cantidad de puntos que nos den la máxima información posible.  Este proceso es el denominado muestreo estadístico.
  • Comparar la serie de puntos con las diferentes figuras (las distribuciones estadísticas). A este proceso se le llama contraste de hipótesis .


Tanto el muestreo como el contraste son dos puntos clave que unen los datos (realidad empírica) con las distribuciones estadísticas a las que puede ajustarse la variable aleatoria (teoría analítica).

La razón para recorrer este camino es que al identificar la forma, podemos trabajar sobre una base (teórica) más sólida y tomar decisiones con más criterio.

Por retornar al símil con la historia del principito: Si sabemos la forma que tiene el elefante, seremos capaces de saber si estamos tocando la cola, la trompa o una pata, y ya no andaremos tan a ciegas.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.