A blog about data, information and IT, by Mario Alberich

Jan 05
2008

Por qué P = Q = 0,5?


El significado de P y Q


Cuando se realizan encuestas, y en general recogida de información, se da muy a menudo un tipo de preguntas que sólo pueden obtener como respuesta un Sí o un No (con el permiso del NS/NC, que ahora dejaremos de lado). Estas preguntas son las más sencillas de clasificar, ya que en el resto se pueden utilizar escalas diferentes como la del 0 al 10, escalas de Likert, gráficos, u otras.

Para estas preguntas, una proporción de los encuestados puede responder que sí, y otra que no (perogrullada al canto), lo que matemáticamente puede representarse como un 1 y un 0, respectivamente. En el caso de haber planteado un muestreo adecuado, la proporción entre ceros y unos debería ser representativa de la población general.

Sumando la cantidad de respuestas 1 y dividiéndolo por el número de encuestados, tenemos una proporción. Así por ejemplo, si se ha hecho la pregunta a 100 personas y 35 han contestado que sí, tenemos que la proporción de síes suma en total:

P(X = sí) = 35/100 = 0,35

Lo que equivaldría a un 35% en términos porcentuales.

Sabiendo que sólo hay dos casos posibles sabemos que la proporción de noes ha sido:

P(X = no) = (100-35)/100 = 65/100 = 0,65

Es decir, un 65% de noes.

De lo anterior se deduce que sabiendo la proporción de respuestas afirmativas, deducimos la proporción de respuestas negativas. Por lo tanto:

P(X=no) = 1 - P(X=sí) = 1 - 0,35.

Para simplificar la nomenclatura, normalmente se indica como P (aunque normalmente en minúsculas) a P(X=sí), mientras que P(X = no) se indica como (1-P), aunque por cuestiones de simplicidad se indica como Q.

En resumen:

P = P(X = Sí)
Q = P(X = No) = 1 - P

¿Hasta aquí se entiende? Bueno pues, sigamos.

En el peor de los casos


Dejando de lado las imperfecciones del trabajo de campo (que darían para mucho), supongamos que tenemos los medios necesarios para garantizar la representatividad de la muestra sólo teniendo en cuenta el tamaño (número de encuestados).

Lo que sucede antes de empezar a calcular la muestra es que no conocemos la proporción de individuos que contestarán sí o no a una determinada respuesta. Por eso es necesario suponer el peor de los casos.

Retornando al título del post, ya sabrás cuál es el peor de los casos, e intuitivamente incluso te puedes imaginar el por qué. Efectivamente, el peor de los casos ocurre cuando hay la misma proporción de individuos que contestan afirmativamente y negativamente.

Te puedes imaginar la situación: tu vas a suponer en cada momento qué va a contestar al siguiente. Si P = Q = 0,5, tienes un 50% de probabilidades de acertar. Y eso es lo mínimo que cabría esperar si puedes elegir entre sí y no, y no hay más respuestas posibles.

Estadísticamente, el proceso de disponer de dos valores posibles para una pregunta se puede modelizar sobre un proceso de Bernouilli. Este modelo estadístico indica que la varianza de una muestra de una población que sigue este modelo es p·q.

Es decir, que la variabilidad de las respuestas se obtiene multiplicando las proporciones de cada una. Ojo, multiplicando, no sumando.

Si sabemos que tanto p como q pueden tomar valores entre 0 y 1, y que la suma de ambas siempre da 1, tenemos los ingredientes necesarios para hacer un análisis de la función de la varianza. Representando el valor de los productos de p y q (considerando incrementos de 0,01). Es decir, vamos a representar:

f(p) = p·q = p · (1-p) = p - p^2

tras lo cual tenemos un gráfico como el siguiente:

Parabola p-(p x p)

Se puede observar que en la mitad del gráfico está el pico máximo. Teniendo en cuenta que es un gráfico entre 0 y 1, se puede intuir el valor intermedio. Para deducir el punto exacto, en el análisis de funciones se utilizan las derivadas. No explicaré lo que son las derivadas, simplemente comentaré que para este caso son formas de detectar la "velocidad" y "aceleración" de la curva.

Esto es un salto sin red para quien no entienda del tema, pero seguro que podrá encontrar amplia literatura al respecto. Teniendo la función anterior:

F(p) = p - p2

Su primera derivada (que indicará la "velocidad") es:

F'(p) = 1 - 2p

Mientras que la segunda derivada es:

F'(p) = -2

De lo anterior se deduce:

  • Dado que la segunda derivada es una constante negativa, la recta siempre está desacelerando. podemos comprobar que la recta ya "venía subiendo" pero cada vez un poco menos rápido, hasta que empieza a bajar, y luego cada vez va más rápido. Es decir lleva una aceleración negativa. Aunque llevara una inercia, la ha ido perdiendo. Por el hecho que la segunda derivada es una constante también se deduce que la curva es una parábola.
  • Dado que sabemos que siempre desacelera, sabemos que la curva es convexa (es decir, tiene la concavidad hacia abajo), por lo que si en algún momento la velocidad es nula (el objeto se ha frenado), podemos deducir que se ha llegado al máximo.


Trato de explicar este segundo punto en palabras más llanas: si estás desacelerando, llega un momento que te paras, y desaceleras más, vas en velocidad negativa. Es decir, que vuelves "hacia atrás" (o hacia abajo) por lo que se deduce que habías llegado al máximo de lejos que podías.

Bien, dicho lo anterior, lo que hay que encontrar es un valor para el que se cumpla:

1 - 2p = 0

La resolución es fácil:

1 - 2p = 0 => 1 = 2p => 1/2 = p ==> p = 1/2 = 0,5

voilà. Tenemos la demostración matemática que la máxima varianza se tiene con p = 0,5!

Este cálculo da garantías al conjunto de la encuesta?


Por lo general, este modo de cálculo es una forma de definir un tamaño de muestra. Las encuestas acostumbran a ser mucho más complejas, pero lo cierto es que los casos en los que las respuestas son de sí/no son los más habituales en encuestas sociales. En otros casos se utilizan otros criterios (por ejemplo cuando lo que se busca no es un estudio de proporciones sino de medias o totales).

Lo que sí vale la pena comentar es que el tamaño de muestra obtenido utilizando este criterio proporciona un margen de error para cada pregunta estudiada de una en una.

De lo anterior hay que deducir que cuando se cruzan dos preguntas, las variabilidades en las respuestas de cada cual se combinan, y por ello el grado de error aumenta. Eso no implica directamente que las encuestas sean más falsas, sino que estos datos se pueden utilizar con finalidad descriptiva y no inferencial (para extraer conclusiones), ya que eso provocaría decisiones erróneas por asumir un riesgo mayor del supuesto.

Otras cuestiones que van más allá de este post son la información previa que tenemos sobre una determinada población, ya que ello nos permitiría reducir el margen de error. Esta reducción podría aplicarse en la fase de muestreo, utilizando uno de varios diseños muestrales existentes.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.