A blog about data, information and IT, by Mario Alberich

Jun 26
2007

Facetas: las matemáticas en la semántica

Las facetas se basan su estructura en el método analítico-sintético: primero es necesario desglosar los factores que identifican la mayoría de elementos a clasificar, luego identificar los posibles valores (o categorías) que incluyan esos factores, y acabar sintetizando estos factores, combinándolos en cada elemento a clasificar. Eso requiere una tarea a priori que no siempre es fácil: dar con los factores principales.


Facetas y espacios vectoriales

Según Taylor, las facetas son:


Propiedades, características o aspectos claramente definidos, mutuamente exclusivos y colectivamente exhaustivos.

Lo que a nivel matemático se puede desprender de esta afirmación, es que algebraicamente, las facetas pueden considerarse vectores (aspectos claramente definidos), linealmente independientes (mutuamente exclusivos y colectivamente exhaustivos).

En realidad, el concepto matemático de faceta se refiere a un vector que tiene n-1 dimensiones. Por ejemplo, en un espacio bidimensional, una faceta sería una recta. En un espacio tridimensional, la faceta sería un plano, y así ad infinitum. En cualquier caso, no se habla de ortogonalidad o de independencia lineal. En esencia, las facetas tal como las define Taylor son un caso concreto del principio matemático aplicado.

Cuando se considera un conjunto de vectores ortogonales (es decir, linealmente independientes entre sí), suficientes (el conjunto de vectores genera un espacio vectorial V), y exhaustivos (cualquier otro elemento-vector puede ser representado como una combinación lineal de los vectores originales), podemos tratar las clasificaciones facetadas como bases de espacios vectoriales.

Disponer de una base de un espacio vectorial nos permitiría describir cualquier elemento dentro de ese espacio, utilizando una determinada combinación de sus componentes. Por ejemplo, disponiendo de dos facetas con 25 elementos en cada caso, se podría disponer de 625 combinaciones posibles.

Desde luego las facetas en la documentación tienen un aspecto nada matemático: que las distancias entre los elementos que hay dentro de una faceta pueden ser de carácter no cuantificable. De todos modos, la cuantificación no es un aspecto irrenunciable: importa más la representatividad.

Hasta aquí no he traspasado aún la barrera teórica de las matemáticas. En realidad nunca se traspasa si se quieren utilizar sus herramientas. Es por eso que son las propias facetas las que se aproximan a las matemáticas.

Al representar las facetas como forma de representación del espacio vectorial, es posible utilizar métodos de cálculo del álgebra matricial, previa definición del criterio de uso. Poner a disposición de los sistemas de clasificación estas herramientas significa proporcionar la capacidad de continua readaptación (que Ranganathan estableció en sus leyes para bibliotecas y que son tan aplicables en el entorno web actual) utilizando indicadores y medidas cuantitativas como soporte, simplificando el reajuste ante la entrada continua de nuevos documentos.

La aplicación de métodos de análisis de facetas permitirían detectar el grado de relación o de agrupación entre combinaciones de valores de las facetas.

Volviendo a la realidad, las facetas se acostumbran a utilizar en combinación con el resto de sistemas de clasificación. El objetivo es minimizar el número de términos y factores de organización, a la vez que se maximiza la relevancia en la recuperación de la información.


Relaciones semánticas, relaciones sintácticas

Es casual que hace poco comentara ciertos aspectos del procesamiento del lenguaje natural y ahora trate de las relaciones sintácticas entre términos. En realidad es casual por cuestiones cronológicas, pero existe una relación conceptual clara.

Las relaciones entre términos de un lenguaje controlado pueden diferenciarse entre semánticas y sintácticas. En el primer caso encontramos las relaciones de equivalencias (sinonimia, traducciones de otros términos, etc.), jerarquía (géneros-especies, parte-todo) y asociativas (relaciones de coordinación, causa-efecto, secuencia espacio-tiempo).

En el caso de la relación sintáctica, encontramos combinaciones de términos que aportan información adicional desde una óptica (léase faceta) diferente.

Para este caso, recojo otro significado del término faceta: son las superficies planas que se encuentran en un poliedro. Por ejemplo, en una piedra preciosa.

Creo que la relación sintáctica tiene ese carácter de tallado sobre un concepto. A diferencia de la primera visión de las facetas basada en un esquema top-down, este segundo enfoque permite definir un concepto con una frase: es decir, centrarse en el objeto, y tallarlo para darle forma de frase.

Al poder representar una combinación de facetas en forma de frase, la gestión y la organización de los contenidos es más intuitiva, más fácil de comunicar y más fácil de aprender para el usuario, si estas facetas son fácilmente asimilables por el usuario.

Para cada uno de los enfoques expuestos existen aplicaciones muy interesantes, tanto en relación con la estadística, como en la informática. Esto lo dejo para un momento post-erior ;-).

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.