A blog about data, information and IT, by Mario Alberich

Mar 05
2008

Navegación social utilizando el tagging - 3


Construcción del marco de trabajo

El sistema trata de actuar en las siguientes fases:

  • Estructuración de recursos individuales en base al etiquetado de recursos.
  • Mapeado de intereses y focos individuales.
  • Proposición de red social en base a las similitudes detectadas.
  • Canalizar las recomendaciones y el feed-back.

Uno de los temas de interés de este apartado es el proceso de clustering. Para ello se analiza el grado de similitud entre dos recursos A y B, que se simboliza como SAB. Se propone la siguiente fórmula para el cálculo de la similitud:
SAB = CTAB / (OTAB - CTAB)
Donde:

  • CTAB = Tags que hay tanto en A como en B (interesección intersección)
  • OTAB = Todos los tags, coincidentes o no (unión de conjuntos)

Analizando superficialmente la fórmula podemos detectar que puede tomar valores entre 0 y , y que el valor es mayor cuanta mayor proporción de tags coinciden.

Las similitudes entre cada par de recursos se puede representar una matriz NxN que permite analizar distancias y representaciones de distancias entre recursos. Esta matriz de similitudes puede poner de relieve las diferencias de criterios de etiquetado para un mismo recurso, lo que pone en riesgo la capacidad de intercambio y reutilización. En el momento que se comprueba que un recurso aislado se etiqueta de forma muy diferente, un sistema de recomendación puede proponer tags que cohesionen al usuario etiquetador dentro de un grupo de interés. De este modo se aisla el loosely tagging que provocado por el etiquetado poco consistente de recursos. Si el sistema proporciona estas funcionalidades y se combinan con herramientas de manipulación de recursos (reetiquetado, por ejemplo), es posible pensar en llegar a un mayor grado de homogeneinización (con la motivación de los usuarios).

Otro caso es el de las etiquetas como "to_read" o "cool", que son genéricas y ajenas a un foco temático, por lo que deben tratarse en base a criterios operativos y no conceptuales.

Otra aproximación puede ser el análisis de la calidad de los clusters en base a las referencias cruzadas entre usuarios. Aunque el estudio no se plantea como objetivo la revisión "manual" de clusters, sí considera factible marcarlos para su revisión.


Creación de focos

La creación de focos se basa en la identificación de tags más utilizados (por término medio) en un subconjunto de datos. Esta mayor conccentración determina el foco. La similitud entre elementos de un cluster viene determinada por la similitud de rangos entre tags (Esto es una nota al margen: Test U de Mann-Whitney y Test de Wilcoxon, por si tienen alguna aplicación válida).

Para establecer una métrica de similitud entre clusters se considera analizar los tags comunes según su rango dentro del conjunto y se propone la siguiente fórmula:

 

Stag = [R1 / (R1-R2)] / F

Donde:

  • Stag = Similitud entre tags.
  • R1, R2 = Rango del tag en los clusters 1 y 2.
  • F: equivale a una medida de "amistad" entre ambos clusters [se refiere a recursos o a miembros?]

Con el cálculo del conjunto de distancias se puede obtener una medida de distancia entre clusters:

D = distancia entre clusters = OS/OT - OD/OT = (OS-OD)/OT

Donde:

  • OT = Total de tags principales de ambos clusters (unión de tags principales).
  • OS = Tags principales que coinciden en ambos clusters (intersección de tags principales).
  • OD = Tags principales que no coinciden entre ambos clusters (no-intersección de tags principales).

El valor de D puede tomar valores en el intervalo [-1,1]. Este valor se normaliza para que tome valores en el rango [0,1].

Se espera que un foco estable tenga un modelo de distribución de tags ajustable a una ley potencial [power law]. Además de ello se propone el análisis de sus atributos:

  • Tamaño: Número de miembros.
  • Amplitud (breadth): Cantidad de sub-temas (pocos tags principales conllevan un tag estrecho).
  • Altura (height): Ratio recursos/tags. Muchos tags/recursos conllevan un foco "bajo", mientras que un ratio de pocos tags por recurso conllevan un foco "alto".
  • Actividad: Número de recursos nuevos por día [podría ser generalizable a recursos por unidad temporal según el entorno y el número de usuarios.
  • Madurez: Relación de todo lo anterior con la antigüedad del foco.

También es importante identificar qué tiempo consume cada foco para un usuario concreto, ya que esto también determina su importancia.


Proposición de red social

Se propone la creación de una red social basada inicialmente en la interacción indirecta, identificando intereses comunes según el etiquetado.

A través de este análisis se estudian las relaciones entre miembros de un foco (relaciones within o intrafocales) y entre focos (relaciones between o interfocales). Las relaciones intrafocales se consideran analizando la fortaleza de los "arcos" [tie strength], que se define con la siguiente fórmula:

TSAB = IAB · 0,5 + KAB = Fortaleza de la relación entre los individuos A y B.

Donde:

  • KAB = F · 0,25 + M · 0,25
  • IAB = Intensidad de la interacción entre A y B.
  • F = Nivel de "amistad".
  • M = Multiplexidad (número de focos comunes de los individuos A y B).

La interacción indirecta servirá de base pero deberá dejar paso a la interacción directa, ya que proporciona información de más valor al sistema.

La matriz NxN de relaciones entre individuos es asimétrica, ya que las relaciones entre individuos no necesariamente son igual de intensas de A a B que de B a A (como caso extremo encontramos el fenómeno "fan").

El análisis del cluster de esta matriz proporciona información sobre la persona más "central" en el grupo (betweenness centraliy), de modo que se identifica al núcleo de usuarios de referencia, que pueden servir de base (o ponderación) para los mecanismos de recomendación.


Relaciones entre focos

También se quiere evaluar la posibilidad de establecer puentes entre focos, ya que esto puede facilitar la evolución de las redes sociales.

Una posibilidad es crear puentes aleatorios. Este proceso aleatorio requiere de un feed-back del usuario que recibe la recomendación. En caso que no exista este feed-back, la recomendación aleatoria desaparece.


Sistemas de recomendación

Los sistemas de recomendación funcionan de forma similar a la comparación de individuos en base a tags. Este criterio de comparación proporciona un valor entre 0 y 1.

En cualquier caso, si se quiere potenciar la existencia de focos entre los puentes interfocales, los sistemas de recomendación deberán ponderar la "proximidad" (valorar más las recomendaciones intrafocales). Sin embargo hay que tener en cuenta que las recomendaciones interfocales pueden ser favorables para que los focos con poco volumen o riesgo de isolación reciban "aire fresco". Esta dinámica normalmente se establece de focos grandes hacia pequeños, por lo que a medio-largo plazo puede llevar a procesos de fusión/absorción.


Feed-back

El feed-back, como la navegación social, puede entenderse en dos vías: implícito y explícito. A nivel de un entorno como el que plantea el documento, el feedback implícito se gestiona a través del sistema, mientras que el explícito lo es por el usuario.


Además, el feed-back directo refleja las relaciones sociales, mientras que el indirecto explicita las relaciones de interés.

Una cuestión que surge en los mecanismos de feed-back es determinar quién debe recibir el feed-back. El sistema almacenará la respuesta del destinatario de la recomendación, pero quien realiza la recomendación recibe también feed-back? Lo hace el primer miembro de la cadena de recomendación?

El sistema de gestión del feed-back considera tres acciones indicativas: lectura, archivado y valoración [reading, archiving and rating]. Para el caso de la lectura, puede ser interesantes no sólo por el número de lecturas sino por el tiempo de estas lecturas.


Conciencia social [social awareness]

  • ¿Cómo puedo utilizar los componentes de la aplicación para actuar socialmente?
  • ¿Cómo puedo hacer que la gente sea consciente que actúa socialmente?

Deben existir incentivos para utilizar las capacidades de la navegación social y los mecanismos de feed-back. La comunicación entre miembros de un foco es clave porque activa la memoria transactiva, lo que conlleva a una mayor cohesión del grupo.


Conclusiones

El documento continúa entrando en detalles sobre la implantación del framework para gestionar todos estos recursos. Lo que viene después de lo comentado ya son detalles técnicos que no vienen al caso si no se desea implementar. Lo que reflejan los detalles de la implantación son la traducción a lenguaje técnico de todo lo explicado.

En la fuente original hay una gran cantidad de gráficos y esquemas que ayudan a asimilar algunos conceptos importantes en la operativa, los cálculos y las características de la red. Sus referencias bibliográficas también aportarán de buen seguro detalles sobre todo lo comentado. También es probable que existan estudios que citen a este documento, por lo que probablemente existirán mejoras para introducir o ampliar.

Leer documentos como este es un verdadero lujo.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.