A blog about data, information and IT, by Mario Alberich

Feb 19
2008

Reutilizar e intercambiar intereses con el tagging


Motivación y fuentes de datos

El artículo Content Reuse and Interest Sharing in Tagging Communities recoge datos obtenidos a partir de los sitios CiteULike y Connotea. Ambos parecen servicios más orientados a ambientes académicos y científicos. Al menos lo parecen más que del.icio.us.

El estudio se centra en estudiar el grado de colaboración, y analiza el nivel de reutilización de los contenidos, y la compartición de intereses.

En el estudio se cita a (Wu et al., 2006) en referencia a los mecanismos que debe incluir una comunidad de etiquetado social para convertirse en una buena herramienta de gestión del conocimiento: identificación de la comunidad, recomentación de usuarios/documentos, y generación de ontología. También se cita el grado de colaboración como una herramienta eficiente que permitiría complementar algoritmos como el PageRank para la recuperación de resultados.

Las citas se hacen argumentando que el éxito de implantación de estas tres herramientas depende del grado de colaboración de la comunidad, por lo que el análisis posterior viene a deducir la viabilidad de implantación de tales servicios.


Análisis

Se extraen datos de los dos sitios indicados antes y se analizan dos métricas: Reutilización de contenido (en base a la repetición de tags y conjuntos de tags). Una vez analizada la reutilización de etiquetas, es posible analizar el grado en que dos usuarios diferentes comparten intereses.

Para realizar el análisis se utilizan dos fórmulas:

  • Relación entre usuarios y recursos (User-Item): Dados dos usuarios distintos, se obtiene un cociente entre el número de recursos que ambos han etiquetado (intersección) y la suma de los recursos diferentes etiquetados por cada uno (unión).
  • Relación entre usuarios y etiquetas (User-tag): Análogamente al anterior ratio, se divide el número de etiquetas en las que ambos usuarios coinciden (intersección), por el total de etiquetas diferentes de ambos usuarios (Unión).

Las conclusiones que se extraen utilizando ambos indicadores es que hay pocos usuarios que compartan recursos y aún menos que compartan etiquetas.

En referencia a compartir recursos, el estudio apunta a que es posible que los usuarios empiecen a compartir, pero que no hay acuerdo en los tags utilizados para describir un ítem. No se apuntan causas para entender el por qué de la diferencia.


La estructura de los intereses compartidos

El estudio diferencia tres niveles de intercambio, que recuerdan mucho a los estudios que analizan poblaciones con estructuras relacionadas con la Power law. En general los tres niveles se establecen en base a los dos ratios anteriores, pero por lo comentado antes, es más significativo el ratio de compartición de contenidos que el de etiquetas compartidas:

  • Una mayoría de usuarios (53% de los nodos) aislados, sin relación con otros, o al menos con preferencias muy distanciadas del conjunto.
  • Una cantidad considerable (15% de los nodos) de subcomunidades prácticamente disjuntas entre ellas. Estas comunidades se agrupan principalmente en base a los recursos etiquetados, y una ínfima minoría por las etiquetas compartidas.
  • Un núcleo denso en el que se comparte establece un ratio medio de 0,66 para los recursos compartidos y un 0,17 para los tags compartidos.

El estudio avisa que estas conclusiones están limitadas por el hecho de haber analizado sólo dos de las comunidades de este tipo, aunque añaden que la representatividad de la muestra es suficiente para un análisis previo como este.

La principal conclusión es que debido a estos bajos niveles de colaboración, está teniendo lugar un bajo nivel de aprovechamiento de la inteligencia colectiva [social knowledge] que se produce.

Finalmente, se añaden algunos comentarios y mejoras para las comunidades de etiquetado:

  • La colaboración no surge de forma natural, y el efecto en estas comunidades es que los usuarios de estos servicios perciben más utilidad en su gestión personal que en la capacidad de agregación de conocimiento.
  • Los sistemas de recomendación se basan en la similitud de intereses entre usuarios, pero dado que hay poco nivel de similitud en el uso de las etiquetas y (a menor nivel) de recursos, el potencial de los sistemas de recomendación en las comunidades analizadas es bajo. En cambio el grado de éxito de los sistemas de recomendación llegan al 90% cuando se restringe las predicciones a ítems reutilizados.
  • Se comentan los sistemas de reputación, que también se ven afectados debido a que la dispersión comentada favorece a la infiltración de contenido pernicioso, que son difícilmente detectables debido a la poca densidad de relaciones de este entorno social (se asemeja al feudalismo informacional). Por otro lado, no es posible establecer una reputación para los usuarios que no tienen un mínimo nivel de reutilización de recursos.

Tagging disperso para profesionales de la información

Es interesante comprobar que las circunstancias de aislamiento se pueden producir en un entorno clásico de organización de la información y en una red social de etiquetado. A pesar que hay una gran variedad de estilos de etiquetado, hay un espacio en la oferta de servicios para usuarios que quieren aprovechar el esfuerzo de otros e integrarse sin la necesidad de ser pioneros. Incluso es importante entender que muchos usuarios ni siquiera se dan cuenta del potencial de compartir y analizar lo que otros indexan.

En ese gran espacio entre el núcleo, las subcomunidades y los usuarios usuarios aislados, es posible que el profesional de la información pueda encontrar muchos espacios-nicho en los cuales analizar los usuarios con intereses cercanos a su nicho, agregarlos, seleccionar los recursos y reetiquetarlos para hacerlos llegar a otros usuarios.

El profesional se puede convertir en un catalizador de la comunidad (estoy seguro que la expresión no es nueva). Sus etiquetas pueden tener una estructura más estándar. Esta estandarización puede servir de puente para conectar las etiquetas de las fuentes y los destinatarios, explicitando aún más el grado de reutilización.

El valor añadido es alto:

  • Sólo buscas la mitad del tiempo, y parte de la otra mitad se dedica a evaluar los contenidos recibidos.
  • Si los recursos encontrados no convencen, es probable que aporten ideas sobre qué buscar y qué no.
  • El profesional puede actuar como referencista para dirigir al usuario hacia otros miembros de la comunidad que tengan intereses o recursos cercanos al que busca.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.