A blog about data, information and IT, by Mario Alberich

Apr 14
2007

Lógica borrosa y tagging (I)


Características del tagging o etiquetado

A diferencia de los lenguajes documentales controlados y precoordinados, el tagging se basa en el etiquetado mediante términos arbitrariamente escogidos, sin ningún tipo de control como el que encontramos en los encabezamientos de materias, descriptores, o en estructuras como los tesauros. Tampoco se combinan estos términos con carácter medianamente sintáctico, como sucede por ejemplo con las facetas. Y esta diferencia es su poder y su debilidad.

Tenemos una serie de herramientas que pueden simplificar la variedad de etiquetados que existen (prácticamente uno por usuario). Sería de esperar que en base a la ley de Zipf, el crecimiento del número de tags fuera reduciéndose a medida que aumenta el número de recursos indexados, pero el uso de un vocabulario no controlado puede ralentizar esa expectativa.

Por ejemplo, tenemos las herramientas desarrolladas inicialmente para el procesamiento del lengaje natural, que permitirían un análisis morfologico de los tags, para unificar términos derivados, singulares/plurales, etc.

También tenemos herramientas de traducción automática o diccionarios, ante los cuales hay que percibir una cierta cautela, dado que la fuerte dependencia del contexto que presentan los sistemas de desambiguación los hace especialmente susceptibles de malinterpretación de las etiquetas. Esta hipotética debilidad podría ser corregida procesando el recurso indexado (es decir, obtener términos que permitan determinar con mayor fiabilidad el contexto).


El uso de etiquetas en la recuperación de la información

Después de exponer las diferencias entre el sistema de etiquetado y los lenguajes documentales controlados, podemos entrar en detalle sobre las problemáticas de cualquier sistema de recuperación de la información, independientemente del sistema de indexación.

Estas problemáticas, desde el punto de vista del usuario, se concreta con dos efectos: silencio y ruido. Estos dos conceptos no son exclusivos de la documentación, ya que tienen su base en la teoría de la información, aunque la diferencia sustancial es que la teoría de la información no tiene directamente en cuenta el valor semántico de la información, sino que va a un nivel más atómico.

En la biblioteconomía y documentación esto se estudia especialmente dentro del área de recuperación de la información.


Silencio, ruido y recuperación de la información

El silencio se produce cuando existe un documento que podría ser relevante para el usuario y en cambio no es recuperado mediante una búsqueda, mientras que el ruido se presenta cuando se retorna un gran número de documentos que no responden a las necesidades de información del usuario. En resumen, el silencio y el ruido explican la relación entre el sistema de recuperación y el usuario. Por decirlo de otro modo más metafórico: el silencio y el ruido son las medidas de la Torre de Babel de la información.

Desde luego, el segundo efecto es mucho más acusado actualmente: dada la enorme colección de documentos indexados por los grandes buscadores, y unas estrategias de búsqueda bastante limitadas (un gran porcentaje de búsquedas no supera los
dos términos de longitud), los documentos retornados son principalmente ruidosos.

La ruidosidad no es ajena al tagging. A pesar de utilizar términos seleccionados por los propios usuarios, es muy probable que una pequeña cantidad de éstos apliquen el principio de la entrada directa (por describirlo de algún modo, ante una pregunta del tipo "sobre qué trata este documento?", la respuesta "trata sobre X" se entiende como la entrada directa).

En cambio, el peso de todas las etiquetas es equivalente: da igual el orden ni el tipo de término utilizado, porque todos pesan igual.

Ante el proceso de indexación, que es el que más se ha abaratado por la introducción de las tecnologías de indexación automática y semi-automática (con resultados más dispares), el peso de los términos sigue siendo el mismo: simplemente se escogen los más significativos y se les da el mismo peso en el momento de recuperar. La deducción lógica es que si se quiere indexar un documento por el conjunto de su contenido, ya disponemos la búsqueda full-text, y con ella, Google.

Aún así, la búsqueda full-text equivale a atacar un sistema por la fuerza bruta: igual lo consigues pero también podrías pasarte años. Lo que pasa es que, ante la simplicidad de los motores de búsqueda, iniciativas más complejas (por ejemplo Powerset, que sigue sin dar señales de actividad) pueden no tener éxito. Es una cuestión de comodidad.

Por lo tanto, ante las soluciones actuales, el ruido y el silencio siguen siendo algo con lo que convivir. En realidad lo será siempre, pero conseguir que se reduzcan implica el aumento de la satisfacción del usuario, y con ello el nivel de uso de un servicio (por lo tanto mayor potencial de ventas, mayor valor de intermediación, y así empieza la espiral).


¿Lenguajes no controlados dan usuarios controlados?

Allá por los años 1996-1997, Tefko Saracevic presentó y amplió el modelo estratificado de relevancia (documento en formato MS Word). Este modelo plantea varios niveles dentro de la relevancia, de los cuales, sólo uno pertenece al dominio del sistema de recuperación, mientras que el resto se refieren a las necesidades de búsqueda del usuario: actitudes, circunstancias, estado emocional,...

Para más información sobre este modelo se puede ver la lista de artículos seleccionados del sitio personal de Saracevic. Para lo que nos ocupa, el interés se centra en poder estudiar si los tags presentan esas características. Algunos tags probablemente pondrían los pelos de punta a un buen indexador: contextuales, dependientes del tiempo, ambiguos... Pero la cuestión es que los tags pueden aportar información sobre el peso de cada uno de los estratos de Saracevic.

Ya sabes: cuando etiquetas un recurso, tú eres el etiquetado.


Estratos borrosos

La lógica difusa incluye un aspecto interesante: la gradualidad. La lógica difusa se basa en el principio de contradicción, y por lo tanto, permite que exista una relación en cierto grado.

También es eso aplicable sobre los estratos de Saracevic. Desde luego, Saracevic ideó el concepto de los estratos sobre la recuperación de la información porque hace diez años no se podía hablar de la web social.

En cambio, ahora el modelo estratificado podría aplicarse sobre la indexación y la recuperación: un tag es situacional en cierto grado, y emocional con otro grado. ¿Quién puede decidir eso? El indexador y el recuperador. Ahí aparece esa máxima tan etérea: la interacción es diálogo.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.