A blog about data, information and Tech by Mario Alberich

        

jul. 3
2007

La veracidad de la información en Internet, a debate

Otro de los focos de polémica que he leído esta semana me ha llegado desde Apophenia, el blog de Danah Boyd, (muy recomendable para todos los aspectos relacionados con comunidades virtuales: vale la pena echar un vistazo a su listado de publicaciones y papers), que actualmente trabaja en Yahoo! y se encuentra muy implicada en los fenómenos Friendster y MySpace.

En su blog, Danah comenta un comentario de Michael Gorman, nada más y nada menos que el presidente de la American Library Association en los años 2005-2006, y primer editor de las AACR en 1978 (así que este es el responsable...). Los comentarios que hace McGorman son:

  • The sleep of reason, (parte I, parte II): Donde McGorman equipara los sueños de la razón de Goya a lo que sucede en Internet, argumentando sobre la falta de calidad de los procesos de producción electrónica actuales, y afirmando que lo necesario no es tanto el seguir manteniendo las publicaciones en papel, sino el incorporar en los procesos de publicación en Internet los criterios de fiabilidad del mundo editorial tradicional.
  • The siren song of the Internet (parte I, parte II): Expone cómo la sencillez de uso de herramientas como Google están dejando de lado aspectos importantes relativos a la propiedad intelectual, plagio, y a la mediocridad por el hecho de descartar todo aquello que no tiene un buen ranking en los resultados de búsqueda.
  • Jabberwiki, the educational response, (part I, part II): Comenta la relación entre los profesionales de la educación y su rigor o permisividad en el uso de fuentes de información, y la introducción de hábitos de búsqueda de información que incluyan recursos más especializados.

Los comentarios de los artículos son mucho más cortos de lo que merecería un buen resumen, pero no tenía esta intención, sino situar la respuesta de Danah Boyd, que no tiene pelos en la lengua. Resumiendo:

  • Empieza expresando su frustración por lo que su vida académica le ha acabado demostrando: que no todo catedrático o miembro de la comunidad académica es todo lo competente que se puede esperar. Ello incluye una crítica a la opinión que la cultura americana es meritocrática (en su opinión, no lo es).
  • Reconoce su pasión por Wikipedia, el placer que le supone hallar buenos artículos, y en especial la auto-aceptación del sitio en cuanto que está en continua evolución.
  • Argumenta que la información no puede ser congelada y servida para el consumo, tal como han tratado de defender las entidades editoriales.
  • También discute la figura de autoridad de publicación (quién decide qué, cómo y cuándo se publica).
  • Matiza en las razones del cambio: Internet es un medio, como el papel. Y por lo tanto es posible escribir basura tanto en Internet como en el papel. Lo que cambia son los criterios de producción y distribución, [y que eso es algo que no gusta a la industria editorial: no es una afirmación literal, sino un interpretación mía].
  • Concluye preguntándose el por qué todos los intelectuales que critican la Wikipedia no se ponen manos a la obra para mejorarla. También se pregunta cuáles son las razones por las que no se explica la dinámica de un sistema de colaboración tan amplio.

El debate de la producción de contenidos

Como se ve, lo que por un lado se interpreta como el problema de la autoridad, por el otro se enfoca como una cuestión de poder de decisión en la publicación. Es un debate que entra de lleno en el derecho de copyright, el control bibliográfico, la producción y distribución, ISBN, IBSN, DOI,...

Personalmente estoy del lado de Danah Boyd. Me pregunto qué pasaría si yo quisiera publicar lo que he puesto aquí. En el fondo cada cual es libre de leerlo. Por las estadísticas de clicks y demás, veo claro que muchas veces se hace más uso a los enlaces que pongo a lo largo del texto, que al contenido en sí.

Pero eso no me preocupa: en esencia este blog es mi aportación, y como muchas publicaciones, puede quedarse aparcada. La diferencia es que en cualquier momento del día alguien puede hacer uso de esto. Sé que si alguien quiere profundizar el el tema que propongo, puede buscar en otra parte. Si algún día quiero publicar en una revista especializada, trataré de cumplir los criterios de calidad que me establezcan. La diferencia entre uno y otro no es la implicación por redactar algo bueno, sino los criterios de consenso para acceder a este documento.

Quizá porque en los últimos tiempos se ha visto triunfar el movimiento del software de código abierto, no hay que dejar pasar que la publicación tiene un coste. La Budapest Open Access Initiative lo deja muy claro: investigar y publicar cuesta tiempo y dinero, con lo que si no cobras al lector final de tu publicación, deberás buscar ingresos por otro lado. O eso, o te dedicas en tu tiempo libre.

En el momento de decidirse a publicar, la diferencia entre el control editorial y la no intermediación pasa por la disponibilidad y accesibilidad al documento: ¿tu blog estará siempre disponible? ¿Un artículo, tendrá siempre un mismo enlace? ¿Y las modificaciones?

Cuando se desea recibir una retribución por esta publicación y se quiere descartar todos los aspectos técnicos, lo mejor es delegar en terceros, sabiendo que probablemente se verificará la calidad del contenido. Décadas atrás, publicar autónomamente era impensable, y por eso el esfuerzo del peer reviewing, el editor y todo lo demás era un trámite para aumentar la visibilidad, pero hoy ya no necesariamente es así.


Identidad, referencia y fiabilidad

Google acertó en el Pagerank, no sólo por sus características matemáticas, sino porque explicita las relaciones de recomendación. El PR da autoridad a los sitios que reciben muchos enlaces: todo el mundo los conoce, y por ello se dan por buenos. En esa época, referencia podía equivaler a identidad.

A pesar de ello, Google apareció en una época en la que los weblogs eran un fenómeno prácticamente inexistente, y que los procesos de publicación aún pasaban por los grandes portales e ISPs, proveedores tradicionales de contenidos que iniciaban sus versiones electrónicas, y poca cosa más. En esa época el motivo de enlace no era significativamente diferente a los que introdujo la web social, pero el criterio estaba bajo un control editorial más tradicional.

Ahora esto ha cambiado, y el software social ha implicado mayor dispersión en la capacidad productiva de contenidos, mayor acceso por parte del público a recursos electrónicos (gratuítos, se entiende) y un alto ritmo de producción. Junto a esto, han aparecido sistemas de indexación no controlados que han introducido la visión personal en la organización de contenidos. Eso no es asimilable directamente por el PR, ya que no se basa en contenidos ni enlaces.

Y es por eso que ahora cabe esperar que la siguiente vuelta de tuerca la den las redes sociales, los microformatos y otros tipos de comunidades y sistemas estructurados de intercambio de información: toda la actividad que se lleve a cabo por usuarios podrá ser estudiada para extraer la relevancia con un valor más personalizado.

Mientras este momento no llega, Google trata de almacenar tanta información como puede sobre los usuarios, aunque desde mi visión más personal, creo que esta información es valiosa para extraer patrones, pero no es la clave para encontrar más productos de éxito.

Por hoy basta, espero que la larga lectura sea a amena y enriquecedora. Creedme si os digo que soy yo quien escribe ;-)

Read more »

jun. 29
2007

Facetas: aplicaciones en informática

En esencia, las facetas son interesantes porque comprimen los parámetros descriptivos. En comparación con esquemas arborescentes, las facetas son de lo más sencillas de utilizar. Al margen de las propiedades positivas y negativas de las facetas, el uso de esos factores es más manejable que una gran estructura, y su combinación genera gran cantidad de casos posibles.

Esa capacidad de compresión y sistematización es su herencia matemática: para el caso, descarta diferencias y se centra en los elementos comunes. Al entrar en ese detalle, ese objetivo de sistematización analítica y su posterior síntesis son muy aplicables a la informática.

Introducir las ventajas de las facetas en la informática es fácil: la base matemática de ambas disciplinas ayuda a una adaptación rápida y fructífera.


Facetas en la vida cotidiana

Un ejemplo muy rápido de lo que puede ser una faceta:

Un calendario es una muestra de uso de facetas

Qué ves? Yo veo facetas. Por ejemplo, una fecha es una combinación de tres facetas: día, mes y año. La pena es que algunos meses tienen 31 días, otros 30, y Febrero que oscila entre los 28 y los 30 (sí sí, cada 400 años, si no recuerdo mal).

Pero veamos más facetas:

  • Faceta Fecha, Faceta Día de la semana,
  • Faceta día, Faceta mes...

Todo esto se puede tratar entender como facetas. Desde luego no sería lo que más en mente tenía Ranganathan, pero como ejemplo creo que es comprensible. Dependiendo del contexto, la exhaustividad de las anteriores facetas puede flaquear. Por ejemplo, si el calendario fuera de dos años, las facetas dia-mes no serían suficientes.

Otro ejemplo fácil es el del juego de hundir la flota, los populares barquitos. En este caso, cada coordenada es una faceta. Pero incluso las cifras de cualquier número en base decimal (por ejemplo) pueden tratarse como facetas:

  • Según el valor de la unidad: (0,1,2,...9).
  • Según el valor de las decenas: (0,1,2,...9)
  • ...
  • Según el valor de las decenas de millar (0,1,2,...9)

Siguiendo este ejemplo, Clasificar los números de 0 a 99.999 es fácil contando con sólo 5 facetas, y 10 valores en cada faceta. ¿Se ve claro su potencial?


Aplicaciones de las facetas en la informática


Estructura y organización de datos

Hasta la fecha he aplicado las facetas en la informática a dos niveles distintos. La primera se refiere a la representación de datos, y más en concreto a su tipificación. En el otro caso, tenemos el diseño de interficies.

La relación entre las facetas y el tratamiento-tipificación de datos viene principalmente porque las bases de datos relacionales se basan en el álgebra relacional. Este álgebra, que expone una serie de operaciones a realizar con tuplas (que a su vez están compuestas de atributos).

Los atributos de cada tupla (que en esencia pueden entenderse como una fila o registro en una base de datos) pueden ser considerados facetas, y los distintos valores de cada una de esas tuplas pueden tomarse como sus miembros. Así, un registro en una base de datos equivale a una indexación en base a las facetas de la estructura de datos.

En los casos reales, no todos los valores de los campos son tipificables. Por ejemplo, los valores numéricos que reflejan datos cuantitativos pueden tener gran cantidad de valores y no ser tipificables en un sentido estricto, sino como un rango de valores.


Por ejemplo, los valores enteros de 1 a 10.000 son finitos y contables, pero ponte a hacer una lista...). El factor clave de la tipificación es que pueda ser fácilmente asimilable. Por ejemplo, separar los 10.000 valores posibles en 30 grupos o intervalos es una estrategia muy utilizada y recomendable.

En otros casos, cuando llegamos a los campos del tipo Sí/No, Mucho/Poco/Nada, Hombre/Mujer, y en general intervalos (por ejemplo, para grupos de edades); en esos casos el concepto de faceta entra de lleno. Se pueden mostrar los datos que tiene cada combinación de valores (Sí-Mucho-Hombre, No-Mucho-Mujer...). En este caso hay 12 combinaciones posibles (2 x 3 x 2), aunque eso siempre tiene un valor teórico (puede haber combinaciones imposibles).

En vista que es posible tipificar datos a nivel interno, es buen momento para ver cómo tipificarlos a nivel de interficie...


Diseño de interficies

Existe una gran cantidad de recursos que hablan sobre la aplicación de las clasificaciones facetadas en el diseño de interficies. Por ejemplo, Infoesfera habla sobre Ranganathan y los Arquitectos Informacionales. También en nosolousabilidad exponen los principios básicos de las clasificaciones facetadas, y el XFML.

En el ámbito de aplicaciones concretas, encontramos tutoriales para desarrollar y utilizar clasificaciones facetadas en la web, o también encontramos el flamencosearch, que demuestra que es posible mostrar gran cantidad de datos en una interficie más o menos limitada, sacando partido de las facetas.

Claro, teniendo tipificados los datos a nivel interno, por qué no utilizar esa tipificación para organizar los datos para el usuario. La primera cuestión es si siempre será útil, y en qué grado. Por ejemplo, es posible que existan tipificaciones de uso interno (gestión de la aplicación informática), o que simplemente no tengan utilidad para el propósito del usuario.

Por ejemplo, en casos donde existe una gran cantidad de información, la capacidad de compresión de las facetas es un buen punto de inicio para el acceso por navegación del usuario. El propio usuario debe ser conocedor de lo que significan esas tipificaciones.


Gestión de los CSS

Una de las utilidades más agradecidas que he encontrado últimamente a las facetas es en su uso de los CSS. Conocí hace unos tres meses que el HTML permite indicar más de una clase a un mismo elemento. Por ejemplo:

...a href="#" class="azul fondo-verde borde-rojo"

Indica que aplique sobre el enlace los estilos azul, fondo-verde y borde-rojo. Los atributos indicados en cada clase se combinan (sintetizan) para utilizarse sobre el enlace.

El proceso de análisis previo de los estilos acostumbra a ser así:

  • Se diferencia entre elementos (tags que llevan el atributo id y que en el CSS se indican con la #almohadilla) de las clases en general.
  • Se especifican las características de las cajas a utilizar en el diseño.
  • Se especifican listas de todos los posibles colores, tipografías, anchos y altos.
  • Se definen las características de los principales tags (h1-h5, p, table-tr-th-td, span, etc.).
  • Se indican clases para alineaciones (text-align, vertical-align).

Aprovechando las ventajas de las facetas, y teniendo ojo de aplicar este criterio sólo sobre lo estrictamente necesario, el tamaño del CSS se reduce, su legibilidad es mucho mejor (agrupando las facetas es fácil hacer modificaciones) y la capacidad de combinación se limita a las capacidades de los navegadores (utilizando dos o tres clases css como mucho acostumbra a ser suficiente).

Lo mejor de todo es cuando se reutiliza este CSS: para empezar, gran parte del trabajo ya está hecho. Lo único necesario es adaptar los colores y/o imágenes de fondo, los tamaños de las cajas y algunos detalles más. Un paso más allá están los temas: sólo variando el posicionamiento y otros detalles, es posible reorganizar los contenidos sin tocar ni un tag del HTML.

Bueno, esto es todo por hoy... Pronto habrá más.

Read more »

jun. 26
2007

Facetas: las matemáticas en la semántica

Las facetas se basan su estructura en el método analítico-sintético: primero es necesario desglosar los factores que identifican la mayoría de elementos a clasificar, luego identificar los posibles valores (o categorías) que incluyan esos factores, y acabar sintetizando estos factores, combinándolos en cada elemento a clasificar. Eso requiere una tarea a priori que no siempre es fácil: dar con los factores principales.


Facetas y espacios vectoriales

Según Taylor, las facetas son:


Propiedades, características o aspectos claramente definidos, mutuamente exclusivos y colectivamente exhaustivos.

Lo que a nivel matemático se puede desprender de esta afirmación, es que algebraicamente, las facetas pueden considerarse vectores (aspectos claramente definidos), linealmente independientes (mutuamente exclusivos y colectivamente exhaustivos).

En realidad, el concepto matemático de faceta se refiere a un vector que tiene n-1 dimensiones. Por ejemplo, en un espacio bidimensional, una faceta sería una recta. En un espacio tridimensional, la faceta sería un plano, y así ad infinitum. En cualquier caso, no se habla de ortogonalidad o de independencia lineal. En esencia, las facetas tal como las define Taylor son un caso concreto del principio matemático aplicado.

Cuando se considera un conjunto de vectores ortogonales (es decir, linealmente independientes entre sí), suficientes (el conjunto de vectores genera un espacio vectorial V), y exhaustivos (cualquier otro elemento-vector puede ser representado como una combinación lineal de los vectores originales), podemos tratar las clasificaciones facetadas como bases de espacios vectoriales.

Disponer de una base de un espacio vectorial nos permitiría describir cualquier elemento dentro de ese espacio, utilizando una determinada combinación de sus componentes. Por ejemplo, disponiendo de dos facetas con 25 elementos en cada caso, se podría disponer de 625 combinaciones posibles.

Desde luego las facetas en la documentación tienen un aspecto nada matemático: que las distancias entre los elementos que hay dentro de una faceta pueden ser de carácter no cuantificable. De todos modos, la cuantificación no es un aspecto irrenunciable: importa más la representatividad.

Hasta aquí no he traspasado aún la barrera teórica de las matemáticas. En realidad nunca se traspasa si se quieren utilizar sus herramientas. Es por eso que son las propias facetas las que se aproximan a las matemáticas.

Al representar las facetas como forma de representación del espacio vectorial, es posible utilizar métodos de cálculo del álgebra matricial, previa definición del criterio de uso. Poner a disposición de los sistemas de clasificación estas herramientas significa proporcionar la capacidad de continua readaptación (que Ranganathan estableció en sus leyes para bibliotecas y que son tan aplicables en el entorno web actual) utilizando indicadores y medidas cuantitativas como soporte, simplificando el reajuste ante la entrada continua de nuevos documentos.

La aplicación de métodos de análisis de facetas permitirían detectar el grado de relación o de agrupación entre combinaciones de valores de las facetas.

Volviendo a la realidad, las facetas se acostumbran a utilizar en combinación con el resto de sistemas de clasificación. El objetivo es minimizar el número de términos y factores de organización, a la vez que se maximiza la relevancia en la recuperación de la información.


Relaciones semánticas, relaciones sintácticas

Es casual que hace poco comentara ciertos aspectos del procesamiento del lenguaje natural y ahora trate de las relaciones sintácticas entre términos. En realidad es casual por cuestiones cronológicas, pero existe una relación conceptual clara.

Las relaciones entre términos de un lenguaje controlado pueden diferenciarse entre semánticas y sintácticas. En el primer caso encontramos las relaciones de equivalencias (sinonimia, traducciones de otros términos, etc.), jerarquía (géneros-especies, parte-todo) y asociativas (relaciones de coordinación, causa-efecto, secuencia espacio-tiempo).

En el caso de la relación sintáctica, encontramos combinaciones de términos que aportan información adicional desde una óptica (léase faceta) diferente.

Para este caso, recojo otro significado del término faceta: son las superficies planas que se encuentran en un poliedro. Por ejemplo, en una piedra preciosa.

Creo que la relación sintáctica tiene ese carácter de tallado sobre un concepto. A diferencia de la primera visión de las facetas basada en un esquema top-down, este segundo enfoque permite definir un concepto con una frase: es decir, centrarse en el objeto, y tallarlo para darle forma de frase.

Al poder representar una combinación de facetas en forma de frase, la gestión y la organización de los contenidos es más intuitiva, más fácil de comunicar y más fácil de aprender para el usuario, si estas facetas son fácilmente asimilables por el usuario.

Para cada uno de los enfoques expuestos existen aplicaciones muy interesantes, tanto en relación con la estadística, como en la informática. Esto lo dejo para un momento post-erior ;-).

Read more »

jun. 21
2007

Indicadores: El ajo dorado


Naturaleza y propósito de los indicadores

En esencia, un indicador no es más que una magnitud o cuantificación de un fenómeno sobre el cual se quiere conocer su estado. Puede ser perfectamente que ese fenómeno tenga una cuantificación en sí misma pero que por razones de coste (demasiado tiempo de espera, inversión de demasiados recursos, o riesgo de error en los valores obtenidos) no es consultable de forma eficiente.

El caso que exponía en la introducción tenía un propósito muy claro: en pocas casas (por no decir en ninguna) he visto termómetros en la cocina. Si hablas de 185 grados o de 215, esa información es poco válida en el ámbito doméstico.

En cambio, es bastante probable que tengas un ajo en casa. Si te sobra un diente de ajo, ya no te hace falta un termómetro, ¿verdad? Más aún si la receta incluye ese ingrediente...


ámbitos de aplicación de los indicadores

Los casos principales de aplicación de los indicadores son la biología (y por extensión en laboratorios relacionados con medicina), economía, sociología, y también todos aquellos procesos relacionados con el control de calidad. De todos modos, me atrevería a afirmar que el proceso de decisión humano se basa en un proceso de síntesis que se asemeja al uso de indicadores.

Otros indicadores que seguro que conoces son los de la meteorología tradicional, la de los abuelos: el dolor de reuma cuando está a punto de cambiar el tiempo, las moscas que se ponen pesadas antes de llover (llevan una substancia que el resto de tonos no llevan, aunque no sabría decir exactamente qué es), etc.


Fortalezas y debilidades de los indicadores

Un indicador no es la cosa indicada, igual que el mapa no es el terreno. Esa es la grandeza y la miseria de los indicadores.

Las principales fortalezas de los indicadores son que son medibles y por lo tanto comparables o combinables con otros indicadores. Por lo comentado anteriormente, los indicadores son un buen sistema para reducir costes (tiempo, dinero o recursos) en el control de calidad, o bien (porque no todo es el dinero) para tomar decisiones de forma más ágil.

Por otro lado, las debilidades que presenta se refieren a la fiabilidad, y creo que son la posible inestabilidad del indicador por cuestiones ajenas (llamémoslas ambientales), o el aumento de la variabilidad cuando el fenómeno estudiado no se encuentra en unas condiciones determinadas. Esto provoca que en determinadas ocasiones tenga que utilizarse una batería de indicadores (que en los ambientes de gestión empresarial suelen ser llamados cuadro de mando estratégico) para poder tener una capacidad de decisión mínimamente fiable.


Propuestas para utilizar indicadores

La premisa para mis propuestas son en esencia que no mires el dedo que señala, sino lo señalado.

Parece una perogrullada pero no es tan raro que los mandos intermedios o superiores se queden sólo con los indicadores por cuestiones de falta de tiempo u holgazanería.

Lo más importante de cara a tratar con un indicador es tener claro su razón de ser: de dónde sale, cómo le afectan los elementos ajenos, y en qué rango de situaciones es o no fiable. En el fondo, llegando a tener un esquema mental de su proceso de creación, podemos conocer su potencia y sus limitaciones. En esencia, si conoces la causa del indicador, no la confundirás con otros efectos.

Para estos casos, el management saca historias como la rana hervida: en este caso, el contraste de temperatura es peor indicador que la temperatura absoluta. Al utilizar su sensación de calor como indicador, no pudo detectar que se superaban los límites aceptables.

Como sucede en medicina, vale la pena tener una segunda opinión: Si puedes tener dos indicadores que se complementen en cuanto a fortalezas y debilidades, pues mejor. En el fondo, un indicador es el termómetro que mide la fiebre de un sistema (la fiebre es un síntoma: otra forma de indicador).

Por lo que respecta al tema estrictamente estadístico, vale la pena apuntar que si puedes tener información sobre el modelo probabilístico al que se ajusta ese indicador podrás realizar contrastes interesantes e incluso desarrollar estudios analíticos para el enriquecimiento de tu cuadro de mandos.

Read more »

jun. 20
2007

La teoría de la relevancia en lingüística


De la pragmática a la teoría de la relevancia

La teoría de la relevancia recoge el testimonio de la pragmática aceptando la comunicación inferencial como parte del mensaje. Eso no implica que todas las comunicaciones incluyan mensajes con contenidos inferenciales: simplemente se tiene en cuenta ese factor. De hecho, se va un poco más lejos poniendo en tela de juicio la máxima de calidad de Grice, indicando que existen situaciones en las que el mensaje no es falso ni veraz, pero que simplemente puede ser impreciso (léase borroso), y que eso es consustancial a la comunicación humana.

Una vez aceptado ese grado de imprecisión, la teoría de la relevancia afirma que el usuario busca maximizar contínuamente su relevancia. Esa relevancia se consigue cuando al decodificar una comunicación, el mensaje aporta un valor cognitivo positivo al usuario.

Para que tenga lugar el proceso de decodificación del mensaje, se debe dar las circunstancias suficientes como para que el receptor haga el esfuerzo de decodificar el mensaje. Esto que parece propio de perogrullo, es digno de ser tenido en cuenta, ya que el mensaje puede ser descartado porque el usuario no tiene suficientes conocimientos. Varios ejemplos que se me ocurren son: un idioma desconocido, conocimientos y habilidades insuficientes (desde cálculo matemático hasta habilidades informáticas).

Desde luego, están los aspectos relacionados con la falta de interés, y otros aspectos situacionales concretos (me puede interesar pero no es exactamente lo que busco ahora). Eso también cuenta para valorar la relevancia, como ya exponía Saracevic en su modelo estratificado.

Así, la relevancia está en cualquier forma de comunicación, y eso es algo muy conocido por los publicistas. A corte de ejemplo, he leído la aplicación de la teoría de la relevancia a un mensaje publicitario.


Relevancia, Inferencia y familiaridad

Después de lo comentado anteriormente, creo que no está fuera de lugar afirmar que la familiaridad aumenta la relevancia. Esa familiaridad puede dirigirse al emisor y a su entorno social o profesional. Es por eso que esa relevancia se puede dar en mayor grado en un entorno cercano (no necesariamente físico).

Revisando los factores que Saracevic comenta en su modelo, podemos imaginar que esos factores pueden ser compartidos con miembros de una misma comunidad. En una empresa los aspectos situacionales pueden ser compartidos. En un sector profesional, se utiliza jerga o lenguaje especializado (recopilado en la experiencia previa).

Al compartir un mismo lenguaje, tanto verbal como no verbal, el esfuerzo para la decodificación del mensaje disminuye, y por ello la relevancia aumenta. Por eso, creo que un elemento clave para aumentar la relevancia es la familiaridad con el emisor: si conoces el emisor conoces su ironía, los chistes malos, las figuras más habituales en sus metáforas... Y desde luego su jerga, terminología científica, algunas de sus experiencias, etc.

Conoces la relevancia personal que la intimidad del emisor proyecta sus propias manchas sobre el mensaje. Ya lo comentaba Emilio Lledó en su Hermenéutica del lenguaje: "El lenguaje es la expresión de la Intimidad" (me gustaría dar mejores referencias interesantes sobre este tema, queda en la lista de tareas pendientes).

La conclusión que yo he sacado (y esto puede ser puesto en tela de juicio) es que en base a la teoría de la relevancia, la capacidad (y la motivación) para decodificar un mensaje es una medida de la intimidad compartida (y la confianza) entre emisor y receptor.

Debo aclarar que utilizo el término intimidad en el sentido amplio, el de la comunicación que utiliza la inferencia para seleccionar los receptores aptos para decodificar el mensaje. Da igual que la selección de receptores sea hablando en voz baja o cualquiera que sea el sistema. La intimidad aquí no la trato en un plano sentimental, sino social.

Trasladando el caso de la ciberpragmática a las folksonomías: si la ausencia de comunicación plena permite crear una identidad propia, compartir plenamente las experiencias ¿puede llevar a crear una simbología colectiva? Entramos en el terreno de la antropología cultural y la etnografía...

Cuando esto se da en un grupo social más o menos grande, los individuos pueden haber convertido la inferencia en referencia. Las combinación ropa-lenguaje-actitud se convierte en un nuevo lenguaje común, que cohesiona a sus miembros y los diferencia del resto del entorno social (que debe inferir los mensajes que trasnmiten los miembros). Este lenguaje como principio de cohesión es una intimidad compartida por los miembros que relaciona directamente la intencionalidad de sus mensajes, con los objetivos como grupo.

Trasladando todo el fenómeno a la web social, y en especial todo lo relacionado con el etiquetado, la aparición de las folksonomías y el análisis de las conductas de etiquetado de los usuarios permite identificar grupos que comparten objetivos, conocimientos y demás. Por ejemplo, Beukis comenta la aplicación de las folksonomías en la Intranet de IBM, entre otros casos. Ese es un reto que abordó la gestión del conocimiento, sin mucho éxito. Ahora que se puede reencarnar en una web social corporativa, vale la pena tener en cuenta que una intranet corporativa recibe un uso de acuerdo con la cultura corporativa de su organización.

En realidad, el lenguaje propio de un grupo es un factor clave en el análisis etnográfico (aplicable a redes sociales como del.icio.us o en entornos corporativos como en el caso de Xerox). En estos casos, es posible que la folksonomía aporte hasta un 70% más de términos que la taxonomía.

Pero esos términos resumen la variedad de la red: un 70% más de términos significa un 70% más de identidad virtual del conocimiento, según la pragmática. El lenguaje escrito que incluye pragmática puede incluir factores de ruido que pueden ser reducidos por stemmers y otras herramentas del PLN. Pero al final, encontramos la muralla de la intimidad (del grupo o del individuo). Sólo que ahora, con la ayuda de las herramientas del etiquetado social, podemos saber qué grado de intimidad y consenso tiene cada etiqueta.

Quizá este documento sobre etiquetado colaborativo y etnoclasificación, que incluye una buena lista de referencias, pueda aportar más información.


Si quieres profundizar en la teoría de la relevancia

Espero que tanta mención a disciplinas tan distantes no hay aguado el tema central. Creo que era necesario abordar el tema como un todo, y eso que no he entrado en aspectos de recuperación de la información. De todos modos, sé que no he entrado ni en una décima parte de lo que he leído sobre la teoría de la relevancia.

Me ha interesado mucho el documento sobre la teoría de la relevancia en la revista del departamento de lingüística de la Universidad de Murcia. Ha sido el documento base para entender la teoría. También he consultado la página de Dan Sperber, responsable junto a Wilson de la enunciación de la teoría de la relevancia en 1986.

Espero que la larga lectura haya aportado una experiencia cognitiva positiva. Yo he disfrutado como un crío ;-).

Read more »

jun. 18
2007

Posicionamiento en buscadores y pragmática

En concreto me han atraído dos conceptos: la pragmática y la teoría de la relevancia en la lingüística. Existe una gran relación entre ambas: de hecho, la teoría de la relevancia parece descender de la pragmática. Mis dudas se deben a que aún estoy leyendo temas al respecto.

Es por eso que ahora desarrollaré el primero en este post, y el segundo en cuanto pueda profundizar y hablar con propiedad. En concreto me interesa encontrar las relaciones de la teoría de la relevancia con la recuperación de la información.


Pragmática


El dilema entre el mensaje y el emisor

La pragmática es uno de aquellos conceptos que creo que nunca hubiera conocido si no fuera por el PLN. Y en el fondo, está en el día a día; en la visión del emisor.

La pragmática se dedica a analizar la distancia entre lo que expresa el mensaje y lo que expresa el emisor. La distancia entre uno y otro es lo que, por resumirlo rápidamente, no puede interpretar un ordenador.

La pragmática surge como contraposición al estructuralismo de Saussure. Esa contraposición afirma que no todo el significado puede ser sintetizado en los signos del lenguaje como construcción abstracta.

La pragmática expone dos conceptos para establecer la distancia entre las dos visiones: referencia e inferencia. Se entiende por referencia aquello que puede relacionar el código y el mensaje estrictamente mediante el código lingüístico. En cambio, la inferencia precisa de una aclaración por parte del emisor. Es decir, parte del mensaje es inherente al emisor.

Las situaciones de inferencia se dan con gran frecuencia. En realidad, seis de las siete funciones del lenguaje enunciadas por Jakobson tienen carácter inferencial. éstas son la expresiva (describe emociones), conativa (trata de influir en el receptor), fáctica (expresión con utilidad social, como bienvenido/a), metalingüística (sobre la propia lengua), y la poética.


El posicionamiento en buscadores: ser prácticos sin aplicar la pragmática

De las funciones del lenguaje inferenciales, la expresiva y la conativa están muy presentes en el lenguaje comercial y de marketing, la segunda puede utilizarse como forma de introducción de un mensaje creativo, mientras que las dos últimas probablemente sean de gran uso en medios audiovisuales pero no creo que lo sean en los escritos, y menos en el posicionamiento en buscadores.

De hecho, Paul Grice, expone una serie de máximas que condensa como sistema de modelo cooperativo para la cominucación. Cualquiera que haya leído las cuatro ideas del posicionamiento en buscadores se va a dar cuenta de ciertas coincidencias:

  • Máxima de cantidad: No cuentes ni mucho ni poco, sólo lo necesario para que el receptor te entienda.
  • Máxima de calidad: No afirmes algo que creas que es falso, o que no tengas suficiente evidencia que sea cierto.
  • Máxima de relación: Sé relevante (en otras palabras, ceñirse al factor referencial del mensaje).
  • Máxima de manera (o de modo): Sé claro, conciso (ir al grano), organizado, y evita la ambigüidad.

Me parece relevante que estas máximas puedan identificarse con el las técnicas del lenguaje periodístico que tanto parece triunfar en la web: empezar por las conclusiones, desarrollar ordenadamente los argumentos y sólo al final, quizá esbozar una visión personal.

En esencia, las máximas de Grice proponen maximizar el valor referencial del mensaje. Si pensamos en el posicionamiento de buscadores, por por muy dispares que sean las búsquedas de los usuarios, el punto de encuentro son las expresiones utilizadas por emisor y receptor. Esto también es aplicable al desarrollo de folksonomías en base a los tags, aunque el desarrollo de esta afirmación queda para otro momento.

Es improbable que un usuario que incluya un término metafórico en una búsqueda entienda lo mismo que otro, a no ser que pertenezcan a la misma tribu (en el sentido etnográfico, en cuanto que comunidad que comparte simbologìa). Eso es de valorar si el producto es para y sólo para este grupo. En cualquier caso, quizá valdría la pena combinar esta campaña con otros términos más mayoritarios.

Personalmente me ha sorprendido la pragmática. Me ha sorprendido sus bases conceptuales, su presencia en el uso habitual del lenguaje, y su relación tan directa con la realidad lingüística del entorno web. De hecho, una de mis lecturas pendientes hablan sobre ciberpragmática.

Read more »

jun. 8
2007

época de exámenes

Dividiré los temas por aspectos generales:

  • Conceptos:
    • Aplicabilidad de las facetas al uso en campos controlados de una base de datos e interacción del usuario.
  • Gestión documental:
    • ¿Cómo gestionar la documentación de información oficial? A alguien de cerca se le quemó hace poco su piso, y ni os cuento lo que pasó con la escritura de la casa, el seguro,... Todo es recuperable, pero en esos momentos de desconcierto uno daría lo que fuera por tener esos documentos a buen recaudo y fácilmente recuperables. Lifehacker ofrecen una idea para guardar documentos importantes en caso de emergencia.
    • Con tanta herramienta de tagging y ¿bookmarking,... Alguna idea para gestionar mi información personal? ¿Alguna idea que nos acerque a Memex? Yo sigo leyendo y releyendo los artículos de nosolousabilidad, entre otros. Un tutorial del tipo "cómo organizar la carpeta de Mis Documentos" sería un buen objetivo.
  • Indexación automática y recuperación de la información:
    • ¿Qué diferencias de densidad (IDF) presentan los términos en documentos estándares y en los tags? Es decir, ¿cómo se condensa la información al etiquetar?
    • Distancia Normalizada de Google [PDF] (Extracción automatizada del significado de términos utilizando Google: una ida de olla muy, pero que muy interesante).
  • Simulaciones:
    • Ley de Hondt: ¿Cómo se reparten los escaños los partidos? ¿Cuántos votos más o menos harían cambiar los resultados?
    • Proceso de generación de una red social: Generación aleatoria de redes sociales.

De momento, hasta aquí. Quizá alguien se atreva a poner sus objetivos a medio plazo. Es una forma de focalizar esfuerzos que no está de más.

 

 

Read more »

jun. 4
2007

Web social y aspectos sociales


Web 2.0: Los cambios en la web

Desde un punto de vista de los que tienen acceso a esa tecnología...

 

 


Respuesta: ¿Y qué pasa con el mundo 1.0?

¿Seguro que la web 2.0 va a mejorar el mundo 1.0?

 

 


A modo de comentario

No son vídeos nuevos: el primero lo había visto hace al menos tres o cuatro meses, y el segundo hace relativamente poco. Me interesan por el contraste, al margen que pueda estar o no de acuerdo con lo que dicen.

Creo que aportan cada uno lo suyo. Creo que no es necesario ir muy lejos para ver que hay quien tiene dificultades para acceder a la información, y ahora no hablo de dinero, pobreza o guerras. En el fondo, la gente que aparece en el segundo vídeo preferirá un plato de comida que este propio vídeo.

Sin embargo, nada les quita el derecho de acceso a la información, aunque de momento les sea negado.

Read more »

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.