Para estas preguntas, una proporción de los encuestados puede responder que sí, y otra que no (perogrullada al canto), lo que matemáticamente puede representarse como un 1 y un 0, respectivamente. En el caso de haber planteado un muestreo adecuado, la proporción entre ceros y unos debería ser representativa de la población general.
Sumando la cantidad de respuestas 1 y dividiéndolo por el número de encuestados, tenemos una proporción. Así por ejemplo, si se ha hecho la pregunta a 100 personas y 35 han contestado que sí, tenemos que la proporción de síes suma en total:
P(X = sí) = 35/100 = 0,35
Lo que equivaldría a un 35% en términos porcentuales.
Sabiendo que sólo hay dos casos posibles sabemos que la proporción de noes ha sido:
P(X = no) = (100-35)/100 = 65/100 = 0,65
Es decir, un 65% de noes.
De lo anterior se deduce que sabiendo la proporción de respuestas afirmativas, deducimos la proporción de respuestas negativas. Por lo tanto:
P(X=no) = 1 - P(X=sí) = 1 - 0,35.
Para simplificar la nomenclatura, normalmente se indica como P (aunque normalmente en minúsculas) a P(X=sí), mientras que P(X = no) se indica como (1-P), aunque por cuestiones de simplicidad se indica como Q.
En resumen:
P = P(X = Sí)
Q = P(X = No) = 1 - P
¿Hasta aquí se entiende? Bueno pues, sigamos.
Lo que sucede antes de empezar a calcular la muestra es que no conocemos la proporción de individuos que contestarán sí o no a una determinada respuesta. Por eso es necesario suponer el peor de los casos.
Retornando al título del post, ya sabrás cuál es el peor de los casos, e intuitivamente incluso te puedes imaginar el por qué. Efectivamente, el peor de los casos ocurre cuando hay la misma proporción de individuos que contestan afirmativamente y negativamente.
Te puedes imaginar la situación: tu vas a suponer en cada momento qué va a contestar al siguiente. Si P = Q = 0,5, tienes un 50% de probabilidades de acertar. Y eso es lo mínimo que cabría esperar si puedes elegir entre sí y no, y no hay más respuestas posibles.
Estadísticamente, el proceso de disponer de dos valores posibles para una pregunta se puede modelizar sobre un proceso de Bernouilli. Este modelo estadístico indica que la varianza de una muestra de una población que sigue este modelo es p·q.
Es decir, que la variabilidad de las respuestas se obtiene multiplicando las proporciones de cada una. Ojo, multiplicando, no sumando.
Si sabemos que tanto p como q pueden tomar valores entre 0 y 1, y que la suma de ambas siempre da 1, tenemos los ingredientes necesarios para hacer un análisis de la función de la varianza. Representando el valor de los productos de p y q (considerando incrementos de 0,01). Es decir, vamos a representar:
f(p) = p·q = p · (1-p) = p - p^2
tras lo cual tenemos un gráfico como el siguiente:
Se puede observar que en la mitad del gráfico está el pico máximo. Teniendo en cuenta que es un gráfico entre 0 y 1, se puede intuir el valor intermedio. Para deducir el punto exacto, en el análisis de funciones se utilizan las derivadas. No explicaré lo que son las derivadas, simplemente comentaré que para este caso son formas de detectar la "velocidad" y "aceleración" de la curva.
Esto es un salto sin red para quien no entienda del tema, pero seguro que podrá encontrar amplia literatura al respecto. Teniendo la función anterior:
F(p) = p - p2
Su primera derivada (que indicará la "velocidad") es:
F'(p) = 1 - 2p
Mientras que la segunda derivada es:
F'(p) = -2
De lo anterior se deduce:
Bien, dicho lo anterior, lo que hay que encontrar es un valor para el que se cumpla:
1 - 2p = 0
La resolución es fácil:
1 - 2p = 0 => 1 = 2p => 1/2 = p ==> p = 1/2 = 0,5
voilà. Tenemos la demostración matemática que la máxima varianza se tiene con p = 0,5!
Lo que sí vale la pena comentar es que el tamaño de muestra obtenido utilizando este criterio proporciona un margen de error para cada pregunta estudiada de una en una.
De lo anterior hay que deducir que cuando se cruzan dos preguntas, las variabilidades en las respuestas de cada cual se combinan, y por ello el grado de error aumenta. Eso no implica directamente que las encuestas sean más falsas, sino que estos datos se pueden utilizar con finalidad descriptiva y no inferencial (para extraer conclusiones), ya que eso provocaría decisiones erróneas por asumir un riesgo mayor del supuesto.
Otras cuestiones que van más allá de este post son la información previa que tenemos sobre una determinada población, ya que ello nos permitiría reducir el margen de error. Esta reducción podría aplicarse en la fase de muestreo, utilizando uno de varios diseños muestrales existentes.
© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.