A blog about data, information and IT, by Mario Alberich

Oct 11
2007

Propuestas para un sistema de tagging - 2


Etiqueta: es una orden

Volvamos a la hipótesis que indicaba en el post anterior: el usuario trabaja en un entorno de trabajo individual (local), donde dispone de una serie de herramientas (aplicaciones) y toda la información es gestionada por un solo sistema de etiquetado. En ese contexto, es posible pensar en tags del tipo:

--sent-to:myfriend@example.com [enviar esta información a un amigo]

--project-attach:project1 [adjuntar a la lista de documentos y recursos del proyecto project1]

--apply-filter:filter1 [Aplicar filtro "filter1"]

--set-event?title=werwer&date=2007-10-05

Aunque he mostrado unas cuantas variantes estructuralmente diferentes, lo que quiero explicar es que se puede etiquetar enfocando la etiqueta a órdenes y procedimientos. Existe una funcionalidad parecida en los sistemas de filtro de los correos: un análisis del contenido permite asignar una ubicación, marcar el mensaje como importante, o simplemente eliminarlo.

El caso inverso también es posible: si un fitro sitúa un mensaje en una carpeta, asignar una o más etiquetas. Si se ejecuta una aplicación que carga un determinado documento, indicar una etiqueta que indique esta acción.

En este contexto, tags y flags trabajan sobre una misma base, ya que el sistema de tagging se convierte en un despachador de mensajes para todo un entorno de trabajo. Desde el punto de vista de un programador, esta afirmación es trivial, aunque soy consciente que no es apta para todo el mundo.

El punto clave para el éxito o el fracaso de estas funcionalidades es la mejora en la calidad de vida de los usuarios, especialmente en lo relativo a la productividad.

En algún punto entre los tags más simples y los casos complejos indicados antes, quizá exista la posibilidad de rellenar un formulario que generará tales tags: si el esfuerzo por etiquetar es mayor (o induce a más errores) que rellenar cuatro campos, el formulario servirá como opción. Por lo demás habremos conectado dos sistemas de introducción de datos.


Sincronización e intercambio

El entorno local de trabajo no puede ser el de la vida habitual de un usuario de Internet: estar al corriente de la novedades requiere conectarse. La variedad de entornos de actividad (trabajo, casa, segunda residencia, casa de un amigo) presenta conflictos varios entre el acceso y la confidencialidad de la información.

Probablemente os ha pasado que al utilizar el programa de mensajería, no queréis que los compañeros de trabajo sepan que estás ahí. También ha sucede que necesitáis un documento que no tenéis disponible porque está en otro ordenador.

Al fin y al cabo es una cuestión de red y terminales: la red permite acceder a una gran cantidad de recursos, pero esos recursos deben llegar al terminal desde el que estamos consultando información. Para evitar la pérdida de eficiencia que supone trabajar en varios terminales (y varios usuarios), la clave está un sistema que permita la sincronización entre terminales, utilizando un servicio central o mediante la arquitectura P2P solucionaría el problema de la ubicación del terminal. Es parecido a lo que sucede en el software de control de versiones como CVS o Subversion, aunque estos sistemas no permiten ir más allá de los archivos de texto para el control de modificaciones.

Cuando ese proceso de sincronización se realiza respecto a la información generada por otros usuarios u organizaciones, el volumen y a diferencia de criterios en el etiquetado va en aumento. Las consecuencias de la polisemia, la sinonimia, los idiomas, terminología técnica, etc. Esta red genera etiquetas que sólo cada usuario individualmente tiene la capacidad para seleccionar. Esa selección implica asimilar nuevas etiquetas, pero lo más importante es definir relaciones con las propias etiquetas: cuando el usuario X utiliza la etiqueta Y, yo lo entiendo como la etiqueta Z.

Entre todas estas relaciones y sinapsis de tags, un usuario sabe identificar las etiquetas sinónimas, las mal escritas y las que no tienen un significado claro. Es el momento de establecer relaciones semánticas o documentales entre etiquetas, y es posible que este usuario pueda organizar su propio listado de tags de interés. Esos tags no son nuestros tags, pero pueden ser sinónimos, equivalentes documentales, términos inadecuados para nuestro vocabulario, o que quizá por la polisemia, tengan significados diferentes para otros usuarios. Disponer de esas sinapsis implicaría disponer de un flujo constante y con un buen nivel de filtrado para disponer de información de interés.

La circunstancia de uso implica que un usuario concreto busque fuentes de información relativas a un tema (pongamos programación orientada a objetos), sobre el cual el utiliza la etiqueta "POO". Sin embargo, encuentra que otros usuarios utilizan otras etiquetas, como OOP, object-oriented-programming, objects, etc. Ante esta variedad de usos, podría ser que algunas de etiquetas (y en especial algunos usuarios) pudieran buscar o disponer de información parecida.

El sistema consistiría en que este usuario pudiera utilizar un sistema de organización parecido a una lista de encabezamientos para indicar equivalencias. Esto implicaría "Mi POO equivale a la OOP del usuario X, y a objects del usuario Y". Es una regla de filtro que genera información bastante más limpia, y que ya llega previamente organizada.

Ante todo esto, las organizaciones podrían disponer de sistemas de etiquetado que a su vez serían integrables en la red de usuarios.


Tags, búsquedas y reglas de filtro como documentos

Los desarrolladores lo tienen claro: el código fuente es a la vez contenido y proceso. Esta dualidad es la que provoca el debate entre el uso de las leyes de patentes o de la propiedad intelectual para su regulación. En el entorno digital, la interacción con un sistema genera siempre esta dualidad: los trucos y hacks (los que ponen a prueba el software de una forma ética) juegan con esa dualidad, y los profesionales de la información podrían empezar a aplicar ese criterio. Por eso, tus búsquedas son documentos, y tus tags también.

En el momento que la información escrita interactúa o se convierte en un proceso, significa que es exportable a otros usuarios del mismo servicio, o a los responsables de este servicio. En el momento que esas entradas de información se utilizan para mejorar la calidad de la recuperación de la información, se convierten en documentos, aunque no tienen una estructura tan completa como los que tradicionalmente utilizamos, y quizá sean más crípticos cuando se trata de extraer conocimientos concretos.

También el concepto de formato de documento implica que los datos en pasivo son procesados por una aplicación que entiende ese formato. Ese paso a la acción es una propiedad que se ha ido trasladando a los profesionales de la información.

Hace poco que se notificaba que Google almacena el historial de nuestras búsquedas. Aunque el argumento de Google es ofrecer una recuperación de la información más adecuada a nuestras necesidades de información, no cabe duda que (probablemente desde hace tiempo) el gran buscador almacena datos precisos de nuestra actividad. Es factible pensar que tanto dato almacenado tiene un interés estrictamente económico.


Intermediación y profesionales de la información

Opino que las sinapsis de tags tal como las comentaba antes, son un reflejo de lo que se denomina inteligencia colectiva. La inteligencia colectiva representada en forma de etiquetas es algo más procesable, pero no necesariamente más explícita. De esta inmensa nube de información, identificar las fuentes fiables es complejo.

Al lado de ese criterio, no parece imposile la existencia de una serie de perfiles de usuarios que generan reglas de filtrado sobre varias fuentes de información. Con la intención de ofrecer información depurada, adecuada e incluso comentada o resumida, se puede ofrecer este servicio a un determinado perfil de usuarios que trabajan intensamente sobre estas fuentes de información y que andan totalmente saturados. La transmisión de esta selección de artículos podría realizarse por varios canales (RSS, e-mail, impreso).

Este tipo de usuarios actuarían como intermediarios entre los usuarios y la información, pero también entre usuarios y una serie de tecnologías (como RSS) que no acaban de aflorar entre la masa de usuarios de Internet. A pesar de ello, la clave no está en la tecnología de comunicación sino en el servicio de filtro. Quienes tienen más de 200 posts al día, de los cuales casi la mitad sean de poco interés, quizá entiendieran ese servicio como una forma de reducir el tiempo (o aumentar las fuentes).

Dentro de todo este esquema, este conjunto de intermediarios podrían estar interesados en generar una estructura de etiquetas más cercanas a un lenguaje controlado. Utilizando este sistema de sinapsis (tags relacionados sin necesidad de adoptarlos) es posible que convivan lenguajes controlados y no controlados, sin que el usuario precise adecuarse al entorno, ni a la inversa.

Como apunte final, cabe comentar una última utilidad para la adaptación de los usuarios al entorno de intercambio: los tags utilizados para etiquetar los posts de un blog podrían "transformarse" si quien está accediendo a la página es una araña (crawler). Sabiendo que una araña está recogiendo información sobre mi página, sería posible indicar los tags aplicando un enlace hacia el tag en technorati, del.icio.us o algo por el estilo. Probablemente los más expertos en SEO podría extraer ideas para mejorar el posicionamiento. Este proceso no debe considerarse cloaking, ya que lo único que se está haciendo es proporcionar al buscador una referencia que él mismo valora. Es MUY probable que ya esté implantado en algún sitio, lo único que añado aquí es integrarlo en un sistema de tags.


Del árbol a la red

La teoría de grafos es una de esas disciplinas que han emergido con la aparición de Internet. Tienen un uso muy difundido en entornos donde la estructura en red es habitual, como la red eléctrica o las carreteras.

En Internet, el grafo casi lo es todo: la arquitectura de la propia red, la organización de sus contenidos, las relaciones sociales... Internet es un grafo hecho realidad.

Dentro de la teoría de grafos, el árbol es considerado también un grafo, sólo que su estructura jerárquica implica que las posibilidades de recorrer todos sus puntos sólo se puede hacer "subiendo y bajando" dentro de la jerarquía.

En la organización del conocimiento, el tesauro es la gran herramienta. Es fruto de esfuerzos y por ello compendio de criterios y objetivaciones. Es una destilación de conocimiento.

Su estructura jerárquica permite desplazarse de lo universal a lo individual, recorriendo de lo genérico a lo específico por una escalera de varios pisos. Esta jerarquía está enhebrada también por términos relacionados, términos no autorizados y demás, pero en esencia es un árbol.

Mi opinión es que el tesauro deberá adaptarse al nuevo entorno. Aunque pueda utilizarse como esqueleto de un lenguaje documental con estructura en red, como las ontologías. La web semántica y las OWL serán el objetivo y la forma final hacia la que puedan evolucionar las relaciones entre etiquetas y los documentos indexados. El etiquetado social ha venido para quedarse, y vale la pena extraer la parte interesante en entornos de tratamiento de la información.

La evolución de los tags, el tagging y las herramientas de los profesionales de la información probablemente se adecuarán a la arquitectura que están planificando Adobe con su AIR, Promokey, Sun/Java y desde luego, Microsoft.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.