A blog about data, information and Tech by Mario Alberich

        

mar. 5
2008

Navegación social utilizando el tagging - 3


Construcción del marco de trabajo

El sistema trata de actuar en las siguientes fases:

  • Estructuración de recursos individuales en base al etiquetado de recursos.
  • Mapeado de intereses y focos individuales.
  • Proposición de red social en base a las similitudes detectadas.
  • Canalizar las recomendaciones y el feed-back.

Uno de los temas de interés de este apartado es el proceso de clustering. Para ello se analiza el grado de similitud entre dos recursos A y B, que se simboliza como SAB. Se propone la siguiente fórmula para el cálculo de la similitud:
SAB = CTAB / (OTAB - CTAB)
Donde:

  • CTAB = Tags que hay tanto en A como en B (interesección intersección)
  • OTAB = Todos los tags, coincidentes o no (unión de conjuntos)

Analizando superficialmente la fórmula podemos detectar que puede tomar valores entre 0 y , y que el valor es mayor cuanta mayor proporción de tags coinciden.

Las similitudes entre cada par de recursos se puede representar una matriz NxN que permite analizar distancias y representaciones de distancias entre recursos. Esta matriz de similitudes puede poner de relieve las diferencias de criterios de etiquetado para un mismo recurso, lo que pone en riesgo la capacidad de intercambio y reutilización. En el momento que se comprueba que un recurso aislado se etiqueta de forma muy diferente, un sistema de recomendación puede proponer tags que cohesionen al usuario etiquetador dentro de un grupo de interés. De este modo se aisla el loosely tagging que provocado por el etiquetado poco consistente de recursos. Si el sistema proporciona estas funcionalidades y se combinan con herramientas de manipulación de recursos (reetiquetado, por ejemplo), es posible pensar en llegar a un mayor grado de homogeneinización (con la motivación de los usuarios).

Otro caso es el de las etiquetas como "to_read" o "cool", que son genéricas y ajenas a un foco temático, por lo que deben tratarse en base a criterios operativos y no conceptuales.

Otra aproximación puede ser el análisis de la calidad de los clusters en base a las referencias cruzadas entre usuarios. Aunque el estudio no se plantea como objetivo la revisión "manual" de clusters, sí considera factible marcarlos para su revisión.


Creación de focos

La creación de focos se basa en la identificación de tags más utilizados (por término medio) en un subconjunto de datos. Esta mayor conccentración determina el foco. La similitud entre elementos de un cluster viene determinada por la similitud de rangos entre tags (Esto es una nota al margen: Test U de Mann-Whitney y Test de Wilcoxon, por si tienen alguna aplicación válida).

Para establecer una métrica de similitud entre clusters se considera analizar los tags comunes según su rango dentro del conjunto y se propone la siguiente fórmula:

 

Stag = [R1 / (R1-R2)] / F

Donde:

  • Stag = Similitud entre tags.
  • R1, R2 = Rango del tag en los clusters 1 y 2.
  • F: equivale a una medida de "amistad" entre ambos clusters [se refiere a recursos o a miembros?]

Con el cálculo del conjunto de distancias se puede obtener una medida de distancia entre clusters:

D = distancia entre clusters = OS/OT - OD/OT = (OS-OD)/OT

Donde:

  • OT = Total de tags principales de ambos clusters (unión de tags principales).
  • OS = Tags principales que coinciden en ambos clusters (intersección de tags principales).
  • OD = Tags principales que no coinciden entre ambos clusters (no-intersección de tags principales).

El valor de D puede tomar valores en el intervalo [-1,1]. Este valor se normaliza para que tome valores en el rango [0,1].

Se espera que un foco estable tenga un modelo de distribución de tags ajustable a una ley potencial [power law]. Además de ello se propone el análisis de sus atributos:

  • Tamaño: Número de miembros.
  • Amplitud (breadth): Cantidad de sub-temas (pocos tags principales conllevan un tag estrecho).
  • Altura (height): Ratio recursos/tags. Muchos tags/recursos conllevan un foco "bajo", mientras que un ratio de pocos tags por recurso conllevan un foco "alto".
  • Actividad: Número de recursos nuevos por día [podría ser generalizable a recursos por unidad temporal según el entorno y el número de usuarios.
  • Madurez: Relación de todo lo anterior con la antigüedad del foco.

También es importante identificar qué tiempo consume cada foco para un usuario concreto, ya que esto también determina su importancia.


Proposición de red social

Se propone la creación de una red social basada inicialmente en la interacción indirecta, identificando intereses comunes según el etiquetado.

A través de este análisis se estudian las relaciones entre miembros de un foco (relaciones within o intrafocales) y entre focos (relaciones between o interfocales). Las relaciones intrafocales se consideran analizando la fortaleza de los "arcos" [tie strength], que se define con la siguiente fórmula:

TSAB = IAB · 0,5 + KAB = Fortaleza de la relación entre los individuos A y B.

Donde:

  • KAB = F · 0,25 + M · 0,25
  • IAB = Intensidad de la interacción entre A y B.
  • F = Nivel de "amistad".
  • M = Multiplexidad (número de focos comunes de los individuos A y B).

La interacción indirecta servirá de base pero deberá dejar paso a la interacción directa, ya que proporciona información de más valor al sistema.

La matriz NxN de relaciones entre individuos es asimétrica, ya que las relaciones entre individuos no necesariamente son igual de intensas de A a B que de B a A (como caso extremo encontramos el fenómeno "fan").

El análisis del cluster de esta matriz proporciona información sobre la persona más "central" en el grupo (betweenness centraliy), de modo que se identifica al núcleo de usuarios de referencia, que pueden servir de base (o ponderación) para los mecanismos de recomendación.


Relaciones entre focos

También se quiere evaluar la posibilidad de establecer puentes entre focos, ya que esto puede facilitar la evolución de las redes sociales.

Una posibilidad es crear puentes aleatorios. Este proceso aleatorio requiere de un feed-back del usuario que recibe la recomendación. En caso que no exista este feed-back, la recomendación aleatoria desaparece.


Sistemas de recomendación

Los sistemas de recomendación funcionan de forma similar a la comparación de individuos en base a tags. Este criterio de comparación proporciona un valor entre 0 y 1.

En cualquier caso, si se quiere potenciar la existencia de focos entre los puentes interfocales, los sistemas de recomendación deberán ponderar la "proximidad" (valorar más las recomendaciones intrafocales). Sin embargo hay que tener en cuenta que las recomendaciones interfocales pueden ser favorables para que los focos con poco volumen o riesgo de isolación reciban "aire fresco". Esta dinámica normalmente se establece de focos grandes hacia pequeños, por lo que a medio-largo plazo puede llevar a procesos de fusión/absorción.


Feed-back

El feed-back, como la navegación social, puede entenderse en dos vías: implícito y explícito. A nivel de un entorno como el que plantea el documento, el feedback implícito se gestiona a través del sistema, mientras que el explícito lo es por el usuario.


Además, el feed-back directo refleja las relaciones sociales, mientras que el indirecto explicita las relaciones de interés.

Una cuestión que surge en los mecanismos de feed-back es determinar quién debe recibir el feed-back. El sistema almacenará la respuesta del destinatario de la recomendación, pero quien realiza la recomendación recibe también feed-back? Lo hace el primer miembro de la cadena de recomendación?

El sistema de gestión del feed-back considera tres acciones indicativas: lectura, archivado y valoración [reading, archiving and rating]. Para el caso de la lectura, puede ser interesantes no sólo por el número de lecturas sino por el tiempo de estas lecturas.


Conciencia social [social awareness]

  • ¿Cómo puedo utilizar los componentes de la aplicación para actuar socialmente?
  • ¿Cómo puedo hacer que la gente sea consciente que actúa socialmente?

Deben existir incentivos para utilizar las capacidades de la navegación social y los mecanismos de feed-back. La comunicación entre miembros de un foco es clave porque activa la memoria transactiva, lo que conlleva a una mayor cohesión del grupo.


Conclusiones

El documento continúa entrando en detalles sobre la implantación del framework para gestionar todos estos recursos. Lo que viene después de lo comentado ya son detalles técnicos que no vienen al caso si no se desea implementar. Lo que reflejan los detalles de la implantación son la traducción a lenguaje técnico de todo lo explicado.

En la fuente original hay una gran cantidad de gráficos y esquemas que ayudan a asimilar algunos conceptos importantes en la operativa, los cálculos y las características de la red. Sus referencias bibliográficas también aportarán de buen seguro detalles sobre todo lo comentado. También es probable que existan estudios que citen a este documento, por lo que probablemente existirán mejoras para introducir o ampliar.

Leer documentos como este es un verdadero lujo.

Read more »

mar. 4
2008

Navegación social utilizando el tagging - 2


Navegación social

La navegación social puede entenderse como el proceso de acceder a objetos de información en base a lo que los individuos cercanos han hecho.

Disponer de vecinos temáticos ayuda a reducir al máximo la distancia entre individuos para generar este proceso de intercambio de la forma más fluida posible. Además, permite obtener información sobre las novedades más rápìdamente.


Navegación directa e indirecta

En este aspecto, los entornos de tagging social inicialmente son entornos de navegación social indirecta, ya que sólo permiten navegar utilizando los resultados de la actividad de otros usuarios, más que en una relación directa entre individuos. En pocas palabras: los usuarios navegan al relacionarse con la información generada por otros pero no en la relación con los otros usuarios.

Estos dos tipos de navegación son perfectamente compatibles, y además complementarios. Por un lado la navegación indirecta no precisa de una relación entre individuos, lo que favorece a iniciar una relación con la información sin necesidad de conocer a terceros. La proximidad de intereses y el intercambio de información relevante es una posible vía para establecer relaciones con otros individuos. En esta segunda parte entra en juego la navegación directa.


Dieberger (2000) y Höök (2003a) proponen cuatro efectos de la navegación social: filtrado, calidad, predisposición social [social affordance] y la evolución de la estructura y la funcionalidad a través del uso que se hace de ésta.

El filtrado y la calidad obtienen un valor por el uso, no sólo del individuo, sino del grupo. El hecho de seleccionar el ítem y guardarlo en "mis favoritos" ya constituye una recomendación implícita, de lo que se deriva un efecto de filtrado (positivo porque se recomienda) y una valoración de calidad.

La evolución en los patrones de navegación social provocan la evolución de la funcionalidad. Por ejemplo, el etiquetado puede ir dirigido a personas concretas, por lo que este etiquetado refleja el cambio de funcionalidad del etiquetado mismo.


Sistemas transparentes

Según Ericksom (2003), los sistemas que quieran proporcionar medios transparentes para la navegación social deben proporcionar:

  • Visibilidad (Ver a otros).
  • Presencia (Ser visto por otros)
  • Contabilidad [Accountability]: Derivada de las dos anteriores que sirve para valorar y penalizar.

Recomendación

El proceso de filtrado colaborativo puede entenderse como la obtención de beneficios por el consenso entre usuarios. Este proceso de filtrado colaborativo se inició de forma manual (según Kostan 2002 puede llamarse pull-active) y actualmente se ha convertido en un proceso más o menos automatizado basado en mecanismos de reputación que permiten generalizar el modelo en comunidades más numerosas.

Al introducir el proceso de filtrado automático, el sistema es el que se convierte en pull-active y el usuario pasa a a ser push-active. Por lo general se aplican estrategias mixtas para que el usuario pueda ser pull-active en un sistema push-active (que le simplifique la faena).

El proceso de filtrado colaborativo trata de conectar las valoraciones de otros usuarios con el usuario receptor. Esta valoración se pondera en base a la red social del individuo, ya sea por relaciones entre usuarios o bien por la similitud de valoraciones entre individuos. Un ejemplo de algoritmo para el primer caso es el del nearest-neighbor (aplica criterios de memoria) mientras que en el segundo caso podemos hablar de técnicas de clustering.

Estas medidas topan con dos aspectos complementarios de las grandes redes: escala y dispersión. Por un lado es complejo ponderar y analizar grandes conjuntos de datos. Por otro, es conocido que estos entornos se dan niveles altos de dispersión, por lo que el intercambio efectivo de información se da en un núcleo muy denso, y no trasciende a los nodos más externos.

Para evitar el segundo aspecto, se plantea la posibilidad de incorporar mecanismos como "filter bots" que generen recomendaciones automáticas para evitar el aislamiento y el "inicio en frío" [cold start]. Por poner un ejemplo mundano, los filter bots hacen de anfitriones al nuevo miembro, para integrarlo en la red de intereses. Si el miembro entabla relación con otros miembros, entra a formar parte de algún foco.

Sin embargo los mecanismos de recomendación conlleva indicadores implícitos, y no tanto a los explícitos. Para poner un ejemplo de ambos tipos de indicadores, se puede ver el caso de last.fm: el indicador implícito es el tiempo que el usuario escucha la canción, mientras que un indicador explícito es la decisión del usuario de "penalizar" la canción para no volverla a escuchar.

En términos generales es mucho más deseable una valoración explícita, pero no es de esperar que un usuario sea proclive a realizar gran cantidad de valoraciones. En cambio, si se pueden extraer valoraciones fiables en base a la actividad del usuario, el sistema dispondrá de mucha más información para recomendar mejor.

A otro nivel también se puede afirmar que las circunstancias, como la actividad y el estado de ánimo afectan a la valoración, por lo que los sistemas de recomendación deben tener en cuenta que existen aspectos circunstanciales que no son tan generalizables como opiniones más objetivas (es muy diferente un "no me gusta" que un "ahora no me apetece" o "no estoy de humor").

Para que el usuario pueda analizar el valor de la recomendación, es necesario que el sistema proporcione información tal como:

  • Fecha/hora.
  • Usuarios con intereses similares.
  • Proximidad (grado de acuerdo) con tales miembros a lo largo del tiempo.
  • Valoraciones de "los vecinos".
  • Consistencia/Acuerdo en las valoraciones entre vecinos a lo largo del tiempo.

Read more »

mar. 3
2008

Clustering en recursos corporativos y generalistas


Colecciones y algoritmos

la colección corporativa generada por unos pocos usuarios (denominado Labbies), y una selección de recursos etiquetados en del.icio.us, que se tomará como muestra de colección externa.

Se quiere analizar dos algoritmos que en último término deberían permitir la selección de etiquetas para facilitar la navegación por los recursos.

Los dos algoritmos utilizados se denominan tag co-ocurrence divisive clustering y betweenness centrality clustering.

En el primer caso se puede entender la co-ocurrencia como una correlación que hay entre dos tags (cuanto más coinciden en el etiquetado de recursos, más correlacionados están). Este algoritmo tiene efectos sobre entornos temáticamente relacionados, y no entra a fondo en la estructura general de la colección.

Al aplicar el algoritmo de la coocurrencia, las correlaciones inferiores a un determinado umbral (un valor mínimo) quedan descartadas por ser muy débiles. Tras este proceso de selección de relaciones, ya se puede visualizar la relación entre etiquetas, e identificar los subgrupos (clusters).

En el segundo caso se aplica un algoritmo que analiza el conjunto de caminos entre nodos. Dentro de estos caminos se seleccionan los arcos que forman parte de un mayor número de rutas más cortas, lo que implícitamente supone que son los más bien vinculados del conjunto. Computacionalmente, este segundo algoritmo es mucho más costoso, aunque existen métodos para la reducción de esta complejidad. A diferencia del algoritmo de coocurrencia, en este caso se prima más la visión de conjunto.

Seleccionando un tema de interés (en este caso, el uso del tag dspace) se recogen los datos de ambas fuentes. En el caso de del.icio.us se crea un subconjunto de datos fruto de un proceso de limpieza que consiste en tareas de homonimia/sinonimia y la eliminación de tags inherentemente ruidosos


Resultados para Labbies

Aplicando el algoritmo de co-ocurrencia se comprueba que el algoritmo prioriza la detección de tags relacionados o similares. Por lo tanto la "similitud" es el factor clave.

Por otro lado se identifica un conjunto de tags no afiliados completamente a un cluster, sino que más bien están a medio camino entre dos clusters diferentes. Estos tags normalmente se identifican con términos genéricos o ambiguos.

En el caso del algoritmo betweenness centrality se verifica que hay un grado menor de disgregación (menos clusters) pero también mayor homogeneidad de tamaño entre ellos.

No se puede determinar si hay uno de los dos algoritmos que sea más potente que el otro de cara a aumentar la recuperación de información en este entorno corporativo.


Resultados con del.icio.us

Al disponer de un número mayor de datos, el proceso de cálculo y visualización de los clusters de del.icio.us fue más largo y complejo.

Además de eso, se produce una generalización en la temática de cada cluster, incluyendo relaciones que semánticamente están alejadas.


Coocurrencia en del.icio.us

El resultado de aplicar este algoritmo es que se generan grandes clusters, que además presentan relaciones débiles. Esto viene dado por un efecto de "coche escoba": los ítems raros se acaban afiliando a una gran masa que acaba formando un cluster principal.

Para evitar este efecto, y con la ayuda de técnicas de visualización se aplica un umbral de co-ocurrencia de 0,142, que genera una agrupación mejorada, aunque conlleva el sacrificio de una gran cantidad de tags.

Este coeficiente demostró ser diferente para cada conjunto de datos (Labbies, del.icio.us y del.icio.us limpiado), lo que implica una mayor generalización.


Betweenness centrality en del.icio.us

En el caso de este algoritmo se generó un gran cluster que no se pudo desmembrar ni siquiera con técnicas de filtrado.

La principal consecuencia es que es mucho más complejo producir cluster de un tamaño adecuado para ser visualizables y favorecer a la navegación por tags como medio para la recuperación de información. Por lo tanto el algoritmo de betweenness centrality no es la mejor opción para descuartizar colecciones de etiquetas.


Enfoque futuro

El principal problema de la aplicación de algoritmos de clustering es que se generan grandes subgrupos. Esto representa un problema para la navegación del usuario. Por lo tanto, es interesante profundizar en las técnicas de división de estos macro-clusters. Conseguirlo permitiría una navegación más sencilla y una interficie menos cargada de información.

No lo apuntan los autores, pero quizá exista la posibilidad de aplicar iterativamente ambos algoritmos: betweenness a alto nivel y coocurrencia en clusters grandes). Quizá con una mínima heurística se podría llegar más al fondo de la cuestión.

Otro aspecto interesante al que se apunta es a la definición de jerarquías de clusters, lo que permitiría un primer nivel de macro-navegación (en forma de áreas temáticas generales), y luego profundizar en clusters temáticamente más delimitados.

Más allá del contenido del artículo, lo más interesante de este tipo de estudios es comprobar hasta qué punto afecta la selección de uno u otro algoritmo para la organización de la información (y en este caso a su recuperación). Como ejemplo aplicado a las colecciones de recursos, creo que es muy pedagógico.

Read more »

mar. 3
2008

Navegación social utilizando el tagging - 1


Aspectos remarcados y descartados

Dada la longitud del documento, mi intención ha sido extraer los aspectos esenciales y dividirlos en unos pocos posts. Por lo tanto no pretendo realizar un resumen completo ni tampoco entrar en detalle con conceptos conocidos tanto en el mundo de la informática como en el de la documentación y la recuperación de la información.

Si después de leer los siguientes posts hay interés por saber más, creo que el salto lógico es al menos hojear el documento, porque realmente su autor se lo merece.


Enfoque del proyecto

Aunque el punto de partida es el uso de los metadatos generados por los usuarios, el objetivo se centra en analizar los métodos por los que los usuarios con intereses, opiniones y actividades parecidas puedan identificarse y localizarse.

En un segundo nivel está el interés por identificar los puntos de conexión entre grupos temáticamente distantes pero susceptibles de intercambiar información.


Se debe entender el contexto como un tipo de información que caracteriza el entorno individual y social, y que puede emerger de la actividad propia de la interacción persona-entorno.

Estos dos niveles permiten concentrar contextos individuales para conformar grupos de interés.

Por ello el estudio considera que contenido y contexto es inseparable, de modo que se adopta una perspectiva fenomenológica de la información. Esto determina el enfoque del resto del estudio, y lo distancia de la ortodoxia de los lenguajes documentales, donde contexto y contenido se disocian.


Semiótica, psicología u sociología


Semiótica: sintaxis, semántica y pragmática

La interpretación de un signo se da a tres niveles distintos: sintaxis, semántica y pragmática (esta última ya comentada en relación a la teoría de la relevancia). La primera establece la relación entre signos; la segunda entre signos y objetos; y la tercera entre signos, objetos y el individuo.

El contexto individual es pues aplicable al ámbito de la pragmática, que es el nivel que describe la visión personal.

También se crea un contexto compratido al mismo nivel de la pragmática (jerga), tras lo cual se da un salto desde la folksonomía (centrado en los signos y la sintaxis) hacia la etnoclasificación (los signos distintivos de una "tribu").


Psicología: Memorias transactivas

Según Wegner (1987), la interacción social es la base de creación de una memoria colectiva. Esta memoria compartida tiene lugar preferentemente en grupos cohesionados que generan "etiquetas" (o jergas) que sirven como denominador común del grupo.

Un aspecto clave en las memorias transactivas es que es necesario saber quién es experto en qué para que la información fluya y se convierta en parte cohesionadora del grupo.


Sociología

La aportación en este campo viene dada por Harper (1999). Este autor analizó el acceso, evaluación y proceso de información según la motivación y la relevancia.

Por ejemplo, es importante valorar cómo afecta la autoridad del responsable de la información, si hay una revision del contenido, y la actividad del revisor.

Al conocer el contexto social (motivación y actividad de autores e intermediarios) en el que se ha desarrollado la información, el receptor asigna un valor a ésta, no directamente por su contenido.


Redes sociales


Características de las redes sociales

Después de analizar los conceptos teóricos anteriores, el autor describe los elementos y procesos que describen las redes sociales.

Atributos: densidad, centralidad, estructura, y puentes/transitividad.

De lo anterior vale la pena describir brevemente la transitividad, ya que interesa su aplicación en sistemas de reputación social. Se debe entender la transitividad como la máxima "los amigos de mis amigos son mis amigos". Desde luego esta máxima no siempre tiene lugar, ya que depende de relaciones entre nodos que previamente son muy densas (muchas relaciones entre nodos).


Teorías en redes sociales


Según Wellman (1990) describe tres características para definir la fortaleza de una relación: intimidad (amistad), voluntariedad de la interacción (interacción) y participación en contextos sociales comunes (multiplexidad).

 

Al analizar el conjunto de las relaciones entre miembros de la red, podemos llegar a la identificación de focos de interés. Estos focos pueden venir determinados por cuestiones psicológicas, sociales, legales o actividades comunes. La probabilidad de relación de dos personas con temas en común es mucho mayor. Interesa identificar estos grupos para generar un mayor grado de recomendación y facilitar el intercambio de conocimiento basado en las relaciones (memorias transactivas).

El análisis de estos focos diferencia entre relaciones intrafocales (micro-integración) e interfocales (macro-integración). Mientras que las relaciones intrafocales fortalecen los grupos temáticos, las relaciones interfocales favorecen la interdisciplinariedad y limitan el riesgo de isolación de nodos.

Read more »

feb. 21
2008

Las tareas y la motivación


Fundamentos teóricos

Tradicionamente, el proceso de resolución de tareas se ha modelizado utilizando la denominada Ley de Poisson, y que consiste en suponer que el número de eventos que suceden dentro de una unidad temporal (llamadas a un teléfono por hora, clientes por minuto en el cajero del supermercado), con un intervalo de tiempo entre eventos que sigue una Ley Exponencial.

A nivel de análisis del proceso, la resolución de tareas se modeliza aplicando la teoría de colas. Lo que plantea esta teoría es que hay uno o más individuos (servidores) que procesa peticiones (clientes) uno tras el otro. Hay diferentes variantes en base al establecimiento de prioridades, si dos servidores colaboran o son independientes, etc. Aunque en general, si no se comenta lo contrario, el proceso de las peticiones se realiza según el método FIFO.


De la gestión de tareas a la gestión de la motivación

El proceso explicado hasta aquí es todo lo matemático que se puede esperar. Sin embargo hay una característica de la distribución exponencial que la hace demasiado racional: Se considera que la distribución exponencial no tiene memoria, es decir, que su probabilidad condicionada (el lapso de espera hasta el próximo evento sabiendo el tiempo del anterior lapso) es igual a su probabilidad incondicionada.

Utilizando términos más llanos: un proceso o una persona que se modeliza utilizando la ley exponencial no se cansaría, ni se aburriría, ni se motivaría. Simplemente resolvería según la dificultad racional de la tarea. Esta premisa quizá sea aplicable a entornos de trabajo con alta mecanización de tareas, pero en entornos informacionalmente intensivos, el criterio no está tan claro.

Ante este escenario, el Artículo Human Dynamics with Adaptive Interest propone un cambio de paradigma para encontrar soluciones más ajustadas a la realidad, escogiendo el modelo basado en el interés (interest-based model) enfrente al orientado a tareas (task based).


Análisis y metodología

La metodología seguida en el estudio es el de la simulación estadística del proceso, introduciendo el factor de motivación como una variable más, y extrayendo de los resultados el nuevo modelo estadístico de periodicidad en la resolución de tareas.

Este cambio de modelo matemático trata de analizar el cambio del concepto habilidad de resolución enfrente a motivación de la resolución de las tareas encomendadas. Sin ánimo de grandilocuencia, se podría decir que este cambio equivale al paso de la inteligencia racional a la inteligencia emocional.

El resultado de la simulación demuestra que las fases más activas se concentran mucho más y las inactivas se dilatan dando lugar a fases frenéticas (con niveles intensos de interacción) seguidas de fases más largas de inactividad (poca motivación). Se entiende que son más largas en relación a lo que cabría esperar aplicando los modelos Poisson-Exponencial.


Conclusiones

El estudio afirma que el modelo matemático que se ajusta a esta nueva circunstancia es una ley potencial con exponente -1 para modelizar el tiempo entre eventos.

Esta conclusión puede ser de interés para analizar los patrones de fenómenos tan dispares como la navegación web, el zapping, y en general cualquier tarea que implique motivación. Dos áreas de aplicación que pueden ser interesantes son el análisis del tiempo en estudios de interacción persona-ordenador (para identificar el grado de usabilidad del sistema cuando existe motivación por el usuario), y a un nivel más concreto, los estudios de búsqueda y recuperación de la información, para obtener una métrica de motivación en el tiempo entre eventos.

A pesar de lo interesante del modelo, los autores apuntan algunas limitaciones de éste, ya que existen muchos ingredientes que intervienen en la motivación humana, varios de los cuales ni siquiera se han estudiado a fondo a nivel psicológico. Es un estudio que llevará tiempo, para el que las conclusiones del estudio (que además son simulaciones y no un trabajo de campo) pueden servir de base para otros análisis.

Volviendo a la pregunta inicial, el ordenador no tiene toda la información necesaria para poder extraer conclusiones. Por ejemplo, el ordenador no tiene información sobre si estás hablando por teléfono o alguien te interrumpe a mitad de una tarea. Pero podría empezar a disponer de indicadores objetivos (matemáticos) que le indicaran que te está bajando la moral.

Y... ¿Quién lo sabe? Quizá se está creando un nicho de mercado para salvapantallas motivadores ;-).

Read more »

feb. 19
2008

Reutilizar e intercambiar intereses con el tagging


Motivación y fuentes de datos

El artículo Content Reuse and Interest Sharing in Tagging Communities recoge datos obtenidos a partir de los sitios CiteULike y Connotea. Ambos parecen servicios más orientados a ambientes académicos y científicos. Al menos lo parecen más que del.icio.us.

El estudio se centra en estudiar el grado de colaboración, y analiza el nivel de reutilización de los contenidos, y la compartición de intereses.

En el estudio se cita a (Wu et al., 2006) en referencia a los mecanismos que debe incluir una comunidad de etiquetado social para convertirse en una buena herramienta de gestión del conocimiento: identificación de la comunidad, recomentación de usuarios/documentos, y generación de ontología. También se cita el grado de colaboración como una herramienta eficiente que permitiría complementar algoritmos como el PageRank para la recuperación de resultados.

Las citas se hacen argumentando que el éxito de implantación de estas tres herramientas depende del grado de colaboración de la comunidad, por lo que el análisis posterior viene a deducir la viabilidad de implantación de tales servicios.


Análisis

Se extraen datos de los dos sitios indicados antes y se analizan dos métricas: Reutilización de contenido (en base a la repetición de tags y conjuntos de tags). Una vez analizada la reutilización de etiquetas, es posible analizar el grado en que dos usuarios diferentes comparten intereses.

Para realizar el análisis se utilizan dos fórmulas:

  • Relación entre usuarios y recursos (User-Item): Dados dos usuarios distintos, se obtiene un cociente entre el número de recursos que ambos han etiquetado (intersección) y la suma de los recursos diferentes etiquetados por cada uno (unión).
  • Relación entre usuarios y etiquetas (User-tag): Análogamente al anterior ratio, se divide el número de etiquetas en las que ambos usuarios coinciden (intersección), por el total de etiquetas diferentes de ambos usuarios (Unión).

Las conclusiones que se extraen utilizando ambos indicadores es que hay pocos usuarios que compartan recursos y aún menos que compartan etiquetas.

En referencia a compartir recursos, el estudio apunta a que es posible que los usuarios empiecen a compartir, pero que no hay acuerdo en los tags utilizados para describir un ítem. No se apuntan causas para entender el por qué de la diferencia.


La estructura de los intereses compartidos

El estudio diferencia tres niveles de intercambio, que recuerdan mucho a los estudios que analizan poblaciones con estructuras relacionadas con la Power law. En general los tres niveles se establecen en base a los dos ratios anteriores, pero por lo comentado antes, es más significativo el ratio de compartición de contenidos que el de etiquetas compartidas:

  • Una mayoría de usuarios (53% de los nodos) aislados, sin relación con otros, o al menos con preferencias muy distanciadas del conjunto.
  • Una cantidad considerable (15% de los nodos) de subcomunidades prácticamente disjuntas entre ellas. Estas comunidades se agrupan principalmente en base a los recursos etiquetados, y una ínfima minoría por las etiquetas compartidas.
  • Un núcleo denso en el que se comparte establece un ratio medio de 0,66 para los recursos compartidos y un 0,17 para los tags compartidos.

El estudio avisa que estas conclusiones están limitadas por el hecho de haber analizado sólo dos de las comunidades de este tipo, aunque añaden que la representatividad de la muestra es suficiente para un análisis previo como este.

La principal conclusión es que debido a estos bajos niveles de colaboración, está teniendo lugar un bajo nivel de aprovechamiento de la inteligencia colectiva [social knowledge] que se produce.

Finalmente, se añaden algunos comentarios y mejoras para las comunidades de etiquetado:

  • La colaboración no surge de forma natural, y el efecto en estas comunidades es que los usuarios de estos servicios perciben más utilidad en su gestión personal que en la capacidad de agregación de conocimiento.
  • Los sistemas de recomendación se basan en la similitud de intereses entre usuarios, pero dado que hay poco nivel de similitud en el uso de las etiquetas y (a menor nivel) de recursos, el potencial de los sistemas de recomendación en las comunidades analizadas es bajo. En cambio el grado de éxito de los sistemas de recomendación llegan al 90% cuando se restringe las predicciones a ítems reutilizados.
  • Se comentan los sistemas de reputación, que también se ven afectados debido a que la dispersión comentada favorece a la infiltración de contenido pernicioso, que son difícilmente detectables debido a la poca densidad de relaciones de este entorno social (se asemeja al feudalismo informacional). Por otro lado, no es posible establecer una reputación para los usuarios que no tienen un mínimo nivel de reutilización de recursos.

Tagging disperso para profesionales de la información

Es interesante comprobar que las circunstancias de aislamiento se pueden producir en un entorno clásico de organización de la información y en una red social de etiquetado. A pesar que hay una gran variedad de estilos de etiquetado, hay un espacio en la oferta de servicios para usuarios que quieren aprovechar el esfuerzo de otros e integrarse sin la necesidad de ser pioneros. Incluso es importante entender que muchos usuarios ni siquiera se dan cuenta del potencial de compartir y analizar lo que otros indexan.

En ese gran espacio entre el núcleo, las subcomunidades y los usuarios usuarios aislados, es posible que el profesional de la información pueda encontrar muchos espacios-nicho en los cuales analizar los usuarios con intereses cercanos a su nicho, agregarlos, seleccionar los recursos y reetiquetarlos para hacerlos llegar a otros usuarios.

El profesional se puede convertir en un catalizador de la comunidad (estoy seguro que la expresión no es nueva). Sus etiquetas pueden tener una estructura más estándar. Esta estandarización puede servir de puente para conectar las etiquetas de las fuentes y los destinatarios, explicitando aún más el grado de reutilización.

El valor añadido es alto:

  • Sólo buscas la mitad del tiempo, y parte de la otra mitad se dedica a evaluar los contenidos recibidos.
  • Si los recursos encontrados no convencen, es probable que aporten ideas sobre qué buscar y qué no.
  • El profesional puede actuar como referencista para dirigir al usuario hacia otros miembros de la comunidad que tengan intereses o recursos cercanos al que busca.

Read more »

ene. 13
2008

Madame Briet


Artículo traducido


Suzanne Briet: Madame documentación y bibliotecaria extraodinaria

Este post va por todos aquellos biblitecarios y estudiantes de la escuela de ciencias de la información que leen este blog.

Una de las mejores cosas que tiene estar en la escuela de ciencias de la información es que consigues aprender todo tipo de cosas sobre gente que amó la información mucho antes que esta hubiera una economía para ésta. Uno de los profesores de mi facultad -Michael Buckland- siempre me asombra con historias sobre los grandes dioses y diosas de la información, muchos de los cuales nunca recibieron ningún crédito por su trabajo. Su último libro Emmanuel Goldberg and his knowledge machine sigue la historia de un inventor judío que escapó de Alemania sólo para ver cómo los americanos robaban varios de sus inventos. Crees que Vannevar Bush inventó el Memex? Piénsalo de nuevo.

Buckland llamó mi atención con otra historia de una bibliotecaria brillante que fue ignorada y olvidada: Suzanne Briet. Feminista, ensalzadora de multitudes e historiadora, Briet fue una de las primeras detrás del movimiento documentalista durante el periodo interino [interim period].


"Briet decía que los documentalistas deberían estar integrados [embedded] en los contextos culturales de los usuarios a los que sirven. Desde esta visión estratégica los documentalistas no deben sólo dedicarse a recuperar documentos, sino realizar prospecciones informacionales sobre las que aún no han sido preguntados, traducir información de otros idiomas, resumir e indexar documentos, y en general, trabajar proactivamente en una dinámica de avanzada del conocimiento en una disciplina (Day)"

Suena un poco a Google, ¿verdad?


"Los escritos de Briet se centraron en la importancia de las formas culturales y las situaciones sociales y las redes al crear y responder a las necesidades de información, más que tratar las necesidades de información como circunstancias como procesos psicológicos internos" (Day)

Sus escritos continúan anticipándose a la teoría del actor-red [actor-network theory] (un enfoque habitual en las escuelas de ciencias de la información). Desafió a las nociones cuantitativas y positivistas de la "información", atribuyendo un origen y función cultural a la documentación y los signos documentales ("What is documentation?").

A pesar de su brillantez, fue ignorada y olvidada. Sólo un bibliotecario fue a su funeral. La mayoría de sus escritos fueron ignorados y nunca se traducieron. Incluso hoy en día, pocos profesores de ciencias de la información tienen conocimientos sobre ella, y pocos enseñan sus aportaciones. Ni siquiera tiene una entrada en Wikipedia!

En un intento por hacer más accesible su trabajo, Ronald Day, Laurent Martinet y Hermina Anghelescu han traducido su trabajo "What is documentation?" al inglés y lo han convertido a archivo en formato PDF descargable. Conjuntamente con Buckland, le han dedicado un sitio web. Su esperanza es que exista más información sobre ella para que los alumnos puedan entender el contexto histórico de la cultura de la documentación. Personalmente estoy fascinada por aprender algo sobre una feminista erudita que tuvo tanta visión y fuera tan olvidada.

Queridos biblioteconomistas y comunidad de estudiantes de ciencias de la información, Michael Buckland, el rescatador de los bibliotecarios olvidados, sobre qué será necesario para que verdaderamente se resucite su memoria? Vivimos en un mundo de registros e información, aunque a menudo olvidamos los exploradores y fundadores (especialmente si son mujeres, personas de color, gays, o que no no sean cristianos). Cómo revivimos las historias de aquellos cuyas contribuciones fueron ignoradas?


Comentarios finales

Para empezar, existe un tono crítico en el post de Danah que debería ser verdaderamente contrastado. Entendiendo que las minorías que comenta han sufrido discriminaciones a lo largo de la historia, sería importante determinar hasta qué punto eso es cierto en el caso que comenta. Es de justicia decir que no he investigado más a fondo buscando en fuentes originales, aunque espero facilitar la tarea para aquellos que deseen hacerlo y no tengan facilidad con el inglés (tampoco es mi caso, seguro que más de uno se habrá dado cuenta).

Lo que más me ha llamado la atención del artículo son dos conceptos: integración y proactividad. Quizá sea por esas dos palabras por la que haya hecho un esfuerzo en traducirlo. Porque estas dos palabras son el abracadabra para que los profesionales de la información pasen de ser desconocidos a apreciados y respetados.

Read more »

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.