Quieres comerte una naranja y la pelas, porque la corteza de naranja es amarga y no te gusta, ¿cierto? Pero claro, luego viene tu madre, o tu abuela, y te dice que no tires la pela. Y con eso ellas te cocinan una especie de almíbar que luego añadirán al bizcocho que vas a disfrutar de lo lindo. Y así te das cuenta que te has estado perdiendo algo, tirando a la basura todas las pelas de naranjas anteriores.
Acéptalo: en el mismo momento en que empiezas a muestrear y analizar, descartas una información para centrarte en otra. Eso es la estadística y en general el método científico: tratar de separar y aislar (analizar significa etimológicamente separar) el grano de la paja, la información del ruido.
Pero esa separación requiere un conocimiento previo, que minimice el sesgo (desviaciones de la media) y el ruido (incremento de la varianza). Se trata de evitar que la muestra de datos quede envenenada, extirpando lo mejor posible el ruido, como si cocináramos un pez Fugu.
Por ejemplo, sólo es capaz de ver en tres dimensiones. En realidad puede ver cuatro, si una de ellas puede ser representada en un eje temporal, y unas cuantas más si utilizamos colores y tamaños. Pero en lo relativo a la representación puramente espacial, tenemos esa limitación, por lo que los modelos con más variables no son representables gráficamente.
Esa es la limitación de la geometría, y el motivo de la importancia del álgebra. Ante esas situaciones, el álgebra y otros métodos de análisis entran en juego. El cálculo matricial, los sistemas de cambios de coordenadas y cambios de base en general, nos permiten reorganizar los datos según convenga (en el sentido más científico posible) para según nuestros objetivos.
Sin embargo todos estos métodos tienen más bien un carácter poco visual. Es difícil intuir (en el mirar hacia dentro en un sentido etimológico) analizando los datos a base de cálculos puros. Es más, en cuanto se pierde el contacto con la intuición, la maquinaria de los métodos numéricos nos puede conducir a errores por seguir a ciegas una metodología. Creo que este es el punto en el que muchos estudiantes de asignaturas de estadística se quedan colgados y empiezan a odiar la estadística, pero eso es un tema para otro post.
Entonces, veamos: ¿y si sacamos lo mejor de ambos mundos? ¿Qué tal analizar para simplicar y reducir las dimensiones, y luego representar visualmente esos datos para ver si nuestras operaciones tienen sentido?
© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.