A blog about data, information and IT, by Mario Alberich

May 21
2007

Long tail: diversidad y factores productivos


Introducción

La cola de las distribuciones estadísticas alberga los valores extremos, que normalmente afectan a los datos de los estadísticos descriptivos como son la media, la desviación estándar, los máximos y mínimos, etc.

Esta característica llevó en su momento a crear la denominada estadística robusta, que se centra en descartar los extremos para que los estimadores tengan comportamientos más estables y menos dependientes de tales extremos. Hay que pensar que en ciertos entornos la aparición de valores extremos podria dificultar el control de un sistema crítico, mientras que el valor informativo de ese dato es ínfimo. Desde luego, esto debe plantearse para cada caso.

Volviendo a la cola, uno de los factores que parece que más llevan a su aparición es el hecho de la interacción entre elementos. Esto por ejemplo es aplicable a muchas áreas: cuando los usuarios se relacionan en una red social, aparece una distribución polinomial.

Inciso: Para los casos de las redes sociales (y en general de otros tipos de redes), hay un documento que me ha servido como punto de referencia para situarme. Se titula "Statistical mechanics of complex networks" (formato PDF, descarga libre). Vale decir que para los poco dados a las matemáticas, es un documento muy denso.

Esa interacción implica en algunos casos relación. Por ejemplo, el modelo entidad-relación de una base de datos normalizada puede presentar una densidad ajustada a un modelo polinomial (las relaciones 1:N no son homogéneas, con lo que si el tipo de relación de datos lo permite, puede darse el caso).


Distribuciones exponenciales y reproductibilidad

Para el caso de las distribuciones exponenciales, el caso va un poco más allá. Digamos que las distribuciones exponenciales tienen una cosa en común: en su fórmula consta de un modo u otro la forma matemática ef, donde f acostumbra a ser una función negativa en relación a X, que confiere a estas distribuciones formas generalmente redondeadas, tan habituales en (por ejemplo) la distribución normal, que forma parte de la familia de distribuciones exponenciales.

A lo que quiero llegar es a una diferencia sutil entre distribuciones polinomiales y exponenciales, basada en el proceso de generación de datos: a mi modo de ver, las distribuciones polinomiales son aplicables a fenómenos en los que existe relación entre elementos, pero que tal relación no genera un valor adicional que realimente el sistema.

Eso no significa que no hayan efectos derivados de la relación: en cualquier caso quedan fuera del sistema. En cambio, las distribuciones exponenciales no sólo establecen relaciones sino que también generan un valor. Es decir, tienen características de reproductibilidad del valor.

Esa reproductibilidad es lo que, por ejemplo, caracteriza la distribución de la riqueza en el mundo, que tradicionalmente se ajusta a modelos como el log-normal: Tener dinero no sólo significa tener más que los otros, sino poder reinvertirlo, obtener más beneficio... A eso me refiero en la reproductibilidad: lo que tradicionalmente dice la máxima "el dinero llama al dinero".

Otro caso muy claro es el hecho de compartir ideas: no sólo se comparte una idea, sino que el hecho de compartir las ideas, relacionarlas con las que ya tenía, y sacar de ahí conclusiones convierte nuestra mente en un órgano exponencialmente sabio.

Como colofón, dos principios:

  • La ley de Metcalfe, principalmente aplicada a las telecomunicaciones, que indica que el valor de una red equivale al cuadrado de los miembros que la forman, hasta que llegan a una masa crítica, momento en el cual el valor de la red aumenta de forma exponencial. Esto tiene una aplicación principal en el llamado efecto red (por ejemplo, el valor que tiene que una compañía telefónica). Robert Metcalfe fue el creador de 3Com, y desarrolló esta ley en base al protocolo Ethernet, que actualmente predomina de forma clara en redes locales y demás. En su primera fase parece que presenta un comportamiento polinomial y en la segunda, exponencial.
  • La ley de Reed (conocida hace poco y por lo tanto), aplicada directamente a las redes sociales, presenta por el contrario un comportamiento exponencial, aunque presenta muchas similitudes con la ley de Metcalfe.

Como curiosidad, existe una crítica a la Ley de Metcalfe en un artículo del IEEE Spectrum, donde se critica el hecho de no entrar en los detalles (precisamente donde entra en acción el efecto long tail): cada nodo funciona diferente, cada uno tiene su actividad.

En el momento que se acepta esa variedad, es donde entran las reglas de los porcentajes (la regla del 1%, 19%, 20% y 80%), que no son más que simplificaciones de la larga cola.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.