A blog about data, information and IT, by Mario Alberich

Apr 27
2009

Modelos lineales (regresión lineal) - 2


El cuadrado es una superficie, no una distancia

Calculando la raíz cuadrada de cada uno de los valores anteriores tendríamos la suma de distancias (algo así como la desviación estándar de los puntos respecto a la recta).  Lo que pasa es que el método de cálculo en los modelos lineales mantiene estas distancias al cuadrado. Un valor algo abstracto. Vamos a sacarle partido.

Entendiendo estos valores sólo como números es algo complejo e innecesario.  Basta trasladarlo a formas geométricas y la cosa cambia. Elevando un valor X al cuadrado (Si X = 3; X2 = 32 = 3 x 3 = 9), estamos obteniendo a la vez el área de un cuadrado para el que su lado mide X (un cuadrado cuyos lados miden 3 tiene un área de 9).

No es casualidad que elevar un valor a la segunda potencia se denomine elevar al cuadrado, como tampoco lo es el hecho que elevar a la tercera potencia se denomine elevar al cubo.

Así que al sumar cada uno de los valores cuadrados obtenemos una especie de mosaico llamado error cuadrado total (o error cuadrático total), lo abreviaré como ECT.

Si representamos los errores cuadrados anteriores, tenemos un mosaico como el siguiente:

Figura: mosaico resultante de los errores cuadrados.

Dado que empezamos con la recta Y = 0, los cuadrados de las distancias son:












X Y Y
recta
EC
1 3 0 9
-1 -2 0 4
2 6 0 36
5 8 0 64
6 3 0 9
4 1 0 1
- - - 123

Los valores de la columna EC forman este mosaico, que se puede representar de forma equivalente con un rectángulo, siempre que tenga un área idéntica.  Con este cambio hemos convertido el mosaico en una baldosa (término acuñado entre varios compañeros de estadística durante largas noches de estudio).

Este rectángulo suma un área de 123. Para el caso, este valor es divisible por 3 y 41, que podrían ser los lados del rectángulo.  Si quieres algo mejor, queda hacer divisiones y tratar con decimales periódicos...

Esta baldosa se convierte en nuestra base de trabajo.  Nuestro objetivo al buscar el modelo lineal es encoger la baldosa, consiguiendo que la distancia entre la recta y los puntos sea mínima.  Si reducimos la distancia, reducimos la suma de cuadrados, y en consecuencia también la baldosa. El área que acabamos de calcular (ECT) se toma como punto de referencia para poder analizar la calidad de los modelos que propongamos.

Para comprobar si existen mejoras al cambiar de recta hemos de comparar el error de la recta inicial y el de la recta supuestamente mejor. Es decir, que tenemos la baldosa de la recta original, la baldosa de la nueva recta, y la diferencia entre ambas.  Utilizando términos más formales tenemos:

  • Error cuadrático total (ECT): que es la distancia entre la recta Y=0 y el resto de puntos.
  • Error cuadrático residual (ECR): Error cuadrático de la nueva recta propuesta.
  • Error cuadrático explicado (o error del modelo - ECE): Es la diferencia entre los dos anteriores.

El Error cuadrático de la nueva recta propuesta se denomina Error cuadrático residual (ECR) porque es la parte del ECT que el modelo sigue sin explicar (es decir, que queda como elemento residual del modelo).

Esta reducción del error cuadrático medio debe incluir un segundo objetivo, igualmente clave: hay que utilizar el mínimo de causas posibles para explicar el efecto.  Hay que analizar el modelo utilizando el menor número de variables para reducir al máximo el error cuadrático.

Resumiendo: hay que reducir cuanto sea posible el error no explicable y utilizar la menor información posible para ello.

Para combinar ambos objetivos se utiliza una medida denominada el error cuadrático medio (ECM): El ECM es el area media tienen los cuadrados de los errores.  Lo único que hay que hacer (de una forma ingenua, no totalmente correcta) es dividir el ECT entre el número de valores.  En el caso anterior, con dos valores, tenemos que el ECM es 123/10 = 12,3.

¿Qué nos aporta el ECM?  Nos indica la superficie media de cada valor recogido en la muestra.  Es decir, el ECM es la distancia media que "genera" cada punto respecto a la recta y que aporta a la baldosa (Ya digo, esto es impreciso pero básicamente cierto: mi principal objetivo es simplificar la explicación).

El principal valor añadido del ECM tiene lugar cuando se analiza cada una de las variables.  Este valor nos ayudará a entender qué variable (una sola o en combinación) aporta más información.  Por el contrario, nos indicará qué variables generan más ruido que significado.

Cuantas más unidades de ECM reduzca una variable, mejor será para el modelo.  Si una variable no explica suficientes unidades ECM, lo mejor es dejarla fuera.

Con todos estos criterios empezamos a analizar.  Para determinar las variables que mejor explican el modelo, hay tres formas de hacerlo, que tienen todo el sentido común:

  • Consideramos que no hay causas fiables e ir introduciendo una variable tras otra para identificar su causabilidad (forward).
  • Consideramos que todas las variables son causas válidas, y eliminamos las que menos error reducen (backward).
  • Alternamos la entrada y salida de variables (stepwise).

El modelo como causa, el error como aleatoriedad

Hasta este punto todo se basa en en criterios estrictos, no hay nada aleatorio.  Entonces, ¿cómo intervienen los criterios estadísticos en la determinación del mejor modelo? Pues en el comportamiento del error.

A priori los modelos lineales básicos consideran que las distancias entre los puntos y la recta tienen un comportamiento aleatorio.  Este comportamiento se considera que equivale al de una distribución normal.

El por qué de esta conclusión es fácil de responder pero de demostración tediosa y algo polémica: la distribución normal puede entenderse como el fruto de la acumulación de variables aleatorias de cualquier tipo.  Es así como lo explica el Teorema Central del Límite.  Es decir, que la normalidad puede obtenerse como resultado de infinidad de pequeñas causas combinadas.

Suponer un comportamiento de los errores como una distribución normal es el punto polémico, porque no siempre es asumible, y por eso se acostumbra a analizar este error para saber si podemos aplicar todo este proceso.

Se puede decir que el error de los modelos lineales no se trata como algo incontrolable o desconocido, sino como algo aleatorio y modelizable cuyas causas no determinan lo suficiente un modelo como para ser tenido en cuenta.

Si consideramos que las distancias se ajustan a una distribución normal, y que estamos calculando el cuadrado de esta distancia (por lo tanto una "variancia") que denominamos error; si hacemos esto podemos concluir que la distribución de esta variancia se ajusta a la distribución X2 (Chi-cuadrado o Khi cuadrado).  El por qué de esta relación, y el concepto de los grados de libertad queda por ahora al margen de la explicación.

El último paso es comparar los errores de dos rectas.  Si teníamos la recta de Y=0, y la recta Y = a·X, podemos comparar sus errores dividiendo sus respectivos errores cuadráticos.  Dividir permite ver el grado de cambio entre las dos opciones.

Ante esta división y su resultado, nos podemos preguntar si el cambio es significativo o no.  Estadísticamente la respuesta pasa por dividir las dos magnitudes (una para cada recta propuesta), que se ajustan a un modelo Chi-quadrado.  Esta división genera otro valor, conocida como F de Fischer.

Atención, porque lo que estamos dividiendo son dos valores concretos: dos sumas de cuadrados que dan cada una una cifra concreta.  Lo que sucede es que se demuestra que estos valores se ajustan a un modelo determinado, y que su resultado también tiene un comportamiento conocido. Estos puntos forman parte de una variable aleatoria.

La distribución F de Fischer-Snedecor tiene dos valores de grados de libertad, correspondientes a cada una de las distribuciones X2 que intervienen en la división.

El proceso final, el del contraste de hipótesis, es algo en lo que quizá profundizaré más adelante.  Pero en cualquier caso, una idea debe quedar clara: al analizar el valor F de comparación entre las dos rectas, el resultado significativo nos indica que hay razones suficientes como para tomar la nueva recta como un modelo mejor, porque aporta suficiente información en contrapartida de añadir una variable más al modelo.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.