A blog about data, information and IT, by Mario Alberich

Feb 19
2009

Muestreo estadístico


Película, cámara, luz, plano, encuadre...


Reduciendo al mínimo las partes implicadas, se podría hablar de tres elementos en el proceso de muestreo-fotografía:

  • El entorno que es objeto de nuestro análisis: No es para nada homogéneo y además puede variar con el tiempo. Para complicarlo más, convive con elementos que pueden distorsionar nuestra percepción.
  • Las herramientas que utilizamos para capturar los datos de ese entorno: Considerando un grado asumible de imperfección, tienen unas características que conocemos y podemos utilizar en nuestro favor.
  • El sujeto que quiere capturar los datos con un objetivo concreto: No la quiere por sí misma, sino para extraer algo: una visión sintetizada de ese entorno y sus implicaciones.


En fotografía los elementos distorsionadores pueden ser la luz (exceso o defecto) y el movimiento.  En el muestreo, la distorsión estática puede crear un sesgo en los datos (fotografía muy clara o muy oscura, con colores más o menos saturados), mientras que la distorsión dinámica debida al movimiento genera ruido.

En el caso de las herramientas, huelga decir que la calidad de la cámara afecta al resultado de forma determinante.  Dependiendo de las exigencias, la calidad es un punto importante. El sistema óptico es clave, así como la velocidad del obturador y el angular.  También lo es la película utilizada: su granularidad y la sensibilidad, junto al enfoque, definen la precisión de los detalles.

Y finalmente nos queda el sujeto, que imprime su carácter al acto de fotografiar y al resultado.  A nivel estadístico, la visión artística queda a un lado para dejar paso a métodos de muestreo.  Lo que sucede a menudo es que hay muchas opciones para decidir cómo se muestrea. En ese punto entra en juego la visión del sujeto, el objetivo del análisis y los medios con que cuenta.  Y lo más importante de todo es que, como en el arte, el equilibrio entre lo bello a lo terrible es frágil.

La combinación de estos tres elementos es lo que puede convertir el muestreo en una mera rutina o en un arte.  La rutina intentará desdeñar los elementos distorsionadores del entorno y centrarse en los datos utilizando las mínimas herramientas, pero... es importante plantearse algunas preguntas:

  • ¿Y si resulta que la distorsión del entorno potencia algo que yo quiero analizar?
  • ¿Puedo alterar el entorno para que simplifique la recogida de datos?
  • ¿Si recogo una muestra destruyo el entorno que quiero analizar? Si es así, ¿puedo muestrear de forma indirecta?
  • Por extensión a lo anterior, ¿Hay algún dato en el entorno más fácil de capturar y que sea un buen indicador de lo que yo quiero analizar?
  • ¿Tengo datos anteriores que me ayuden a capturar partes concretas con más precisión para luego hacer un collage?
  • ¿Existen elementos monótonos o repetitivos?


Combinando estas técnicas se han desarrollado una gran cantidad de métodos de muestreo, adaptados a casos diversos, pero con un objetivo: recoger la mínima muestra posible y extraer la máxima información de ella.

La lista de métodos de muestreo no es para nada cerrada.  Lo que sucede a menudo es que los diferentes métodos se combinan. Eso sí, inventarse un método de muestreo no es algo baladí, la base matemática  que hay tras un método es muy intensa.

Más allá del muestreo aleatorio simple


Ahora daremos un salto hacia el periodismo.  Durante un rato serás un reportero/a que recorre las calles en busca de opiniones sobre noticias de actualidad.  Hoy te ha tocado ir a un par de barrios.  Antes de salir de la redacción te topas con un compañero que te dice: "en barrio A todos piensan exactamente lo mismo sobre este tema.  En el barrio B las opiniones son más diversas, pero más extremas que en el A".

Con esta información, y dado que quieres hacer un reportaje lo más representativo posible (pero cuanto antes acabes mejor), te preguntas: ¿Cuántas opiniones recojo de cada barrio?  La lógica lleva a pensar que en el barrio A sólo vas a entrevistar a una sola persona (la segunda te dirá lo mismo que la primera), y en el barrio B, las que puedas recoger el resto del tiempo.

El resultado es que tardas una hora menos de lo habitual en recoger opiniones, con lo que llegas antes a casa. Eso sí, antes de tumbarte a hacer la siesta te apuntas en la agenda que debes un café a ese compañero.

En los procesos de muestreo sencillos, el aprovechamiento de esa información se obvia en detrimento del muestreo aleatorio simple.  En el caso de la reportera, eso equivale a recoger el mismo número de opiniones en los barrios A y B, con la consecuencia que obtienes *menos variedad* de opiniones con más esfuerzo.

Por lo tanto, el muestreo aleatorio simple es el primer escalón en las técnicas de muestreo, pero por ello el menos eficiente.  Si tienes información sobre la estructura del entorno, puedes aprovecharla y ahorrarte esfuerzo.  Algunas de las posibilidades son:

  • El entorno está diferenciado en conjuntos totalmente separados.  En ese caso puedes utilizar el muestreo estratificado. Lo que vas a hacer es recoger cantidades diferentes de ese estrato, y luego hacer una media ponderada de acuerdo con el peso de cada estrato en la población total. Ejemplos de estratos son la diferenciación por sexos, o edad, o nivel de ingresos.
  • Hay división de conjuntos, cada uno de los cuales es heterogéneo en su interior, y parecido al resto. Es decir, que tienes pequeñas muestras representativas de todo el conjunto.  En ese caso puedes utilizar el muestreo por conglomerados. Los conglomerados son lo opuesto a los estratos. Un ejemplo de conglomerado serían poblaciones de tamaño similar: en todas podemos encontrar su plaza, ayuntamiento, iglesia, su parte antigua y probablemente una parte nueva.  Esta repetición casi sistemática ayuda a tratar unos pocos pueblos representativos y luego trasladar los resultados al conjunto.
  • El entorno genera (o emite) elementos en serie, de forma rítmica y totalmente predecible. En ese caso, puedes aprovechar ese ritmo para aplicar un muestreo sistemático.  Este muestreo divide los elementos en grupos y selecciona uno o más de cada subgrupo. En esencia es similar al muestreo aleatorio simple, sólo que la forma de muestreo puede depender de las características de la /serie/.
  • Lo que quieres analizar es mucho más complejo de observar que otro elemento con el que tiene una relación causa-efecto.  En ese caso puedes aplicar un muestreo de razón (o de ratio).  Observando el segundo puedes deducir el primero por su correlación.


Estos sistemas de muestreo se pueden combinar y superponer según la complejidad de lo observado.  Por ejemplo, se puede analizar un primer nivel por conglomerados (árboles frutales) y luego establecer un muestreo de razón (frutas por rama), si eso reduce la muestra considerablemente. En este caso, cuanta menos muestra escojamos mejor, ya que cada fruta recogida para analizar su calidad es una fruta menos producida.

Comentarios finales


El muestreo es un arma de doble filo.  Es el medio que acercará nuestras conclusiones a la realidad, y también el principal factor de distorsión por un uso indebido.  Los trabajos de campo y muestreos son la comidilla de los argumentarios antiestadísticos.

Siempre es importante tener en cuenta que el usuario da valor a la herramienta, por lo que no se puede afirmar la veracidad de un estudio sin saber su método. Lo que sí es posible afirmar es que la selección correcta del método de muestro garantiza buenas conclusiones con poco esfuerzo.

A todo esto, sólo me queda añadir un detalle.  En el caso de las encuestas y estudios sociales con personas, hay otro elemento añadido: el cuestionario.  Este elemento es parte de la caja de herramientas de la estadística, y otro punto clave.  Pero esto, si lo considero oportuno, ya será motivo de otro artículo.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.