A blog about data, information and IT, by Mario Alberich

May 05
2007

Analizando del.icio.us y sus tags


Metodología


El procedimiento de rastreo se ha iniciado, como comentaba, rastreando la nube de tags principal. Rastrear esta página significa varias cosas:

  • Recuperar el contenido devuelto por la URL.
  • Determinar los tags de enlaces con referencias (tags HTML "a" que tengan el atributo href con una URL correcta) que existen en esa pàgina.
  • Analizar esos enlaces para determinar si se trata de enlaces a páginas de usuarios, a páginas de tags, pàginas de URLs o a enlaces externos a del.icio.us.
  • Una vez determinado el tipo de URL, se incluye en la cola de URLs a rastrear y se inserta en una base de datos el nuevo dato recopilado del análisis anterior (se inserta un tag, login de usuario o URL en la BD).
  • El proceso finaliza en un número de iteraciones (rastreo, recopilación de enlaces, tipificación, registro en BD).


Para el caso que nos ocupa, he hecho 40 fases de 10 iteraciones, lo que implica que he rastreado 400 pàginas en total (una miseria, según como lo miremos, pero ya tendré tiempo para entrar más a fondo).

Datos generales del rastreo


Del resultado del proceso anterior, saltan los siguientes datos descriptivos, que dan una idea del volumen de datos que genera este tipo de operaciones:

  • 26.618 referencias (URL) recopiladas en la cola. Las primeras 400 han sido las utilizadas para el análisis actual.
  • 2.951 etiquetas únicas.
  • 990 usuarios.
  • Del proceso de las 400 pàginas se han recopilado 4411 URLs externas (pàginas introducidas por los usuarios en del.icio.us que teóricamente apuntan hacia fuera).


A partir del proceso de los datos anteriores, se han extraído los siguientes datos adicionales:

  • Se han añadido una media de 62 etiquetas por fase de rastreo, aunque las fases más activas han sido hasta el rastreo de la pàgina 150 aproximadamente. Esto se debe a que los primeros rastreos se han realizado sobre las pàginas iniciales de tags que aparecen en la nube (son tags muy utilizados que probablemente se relacionan con otros tags).
  • El 60% de los tags son utilizados una sola vez (y por lo tanto, por una sola persona). Este porcentaje se va acercando cada vez más al 50% a medida que aumenta el número de páginas rastreadas.
  • Con un ritmo pràcticamente idéntico, la cola de la distribución se va alargando, exponiendo los tags más utilizados (que en la muestra 400 supera las 350 ocasiones para el tag design).
  • El top ten de los tags más repetidos en la muestra son (entre paréntesis la frecuencia):
    • design (361).
    • programming (264)
    • web (248)
    • ajax (235)
    • advertising (219)
    • business (213)
    • blog (209)
    • development (201)
    • software (186)
    • tools (172)




En base a lo comentado, un par de gráficos, que siempre pueden alegrar un poco el post (esto del grafismo lo tengo ciertamente olvidado, vale decirlo...).

Incorporación de nuevos tags


En el siguiente gráfico se puede ver el número de tags nuevos que se van incorporando para cada nueva fase de muestreo.

Incorporaciones de nuevos tags por muestra

Como se puede apreciar, el cambio sustancial se encuentra en la iteración 150. Por lo demás, los picos que existen más adelante se deben casi siempre a lo mismo: dentro de las 10 pàginas a rastrear, existen algunas que son referidas a tags (ni usuarios ni nada por el estilo). Parece ser que en esos casos, aumenta el número de tags nuevos.

En cualquiera de los dos gráficos, sacar concluciones es algo muy preliminar, simplemente se debe coger la información como datos descriptivos.

La segunda figura ya es un poco más esotérica pero creo que tampoco costará mucho de descifrar. Se trata del diagrama del grado de repetición de los tags según la muestra tomada:

Occurencias de tags en muestras de 10 a 400

Como se puede ver, a medida que se va hacia la parte mas profunda del gráfico, aumenta el tamaño de la muestra tomada. Es decir, hay más tags, más URLs, etc. Sin embargo, a partir de la muestra 100 aproximadamente, la forma del gráfico se estabiliza bastante.

En lo referente a la forma, cabe comentar que el valor del "0" que yo he marcado como 0 es algo muy relativo.

En el fondo, no es observable la frecuencia de "tag que aparece 0 veces". Pero... ¿no es observable porque sucede infinitas veces, o porque no sucede ninguna? En fin, no he entrado en dilemas conceptuales porque aún no es el momento, pero probablemente me inclinaría por tags "nunca utilizados", que implicarían un número "infinito" de etiquetas utilizadas 0 veces. Esto llevaría el gráfico a una forma parecida a una distribución exponencial, o bien a una Poisson. Lo dicho: ya llegará el momento de los contrastes.

Pues de momento eso es todo: creo que con estos dos gráficos ya se puede abrir boca, y dentro de nada habrá algunas comparativas entre tags. En relación al post de tagging y lógica borrosa, haré un pequeño algoritmo que calcule la distancia de lehvenstein (el grado de parecido del orden de teclas) entre tags, puro divertimento.

Posteriormente habrá comparativas URLs-usuarios-tags, aunque será necesario recopilar mucha más información.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.