Sopa de bits

A blog about data, information and Tech by Mario Alberich

Sopa de bits

A blog about data, information and Tech by Mario Alberich

ene. 5
2008

Por qué P = Q = 0,5?

El significado de P y Q

Cuando se realizan encuestas, y en general recogida de información, se da muy a menudo un tipo de preguntas que sólo pueden obtener como respuesta un Sí o un No (con el permiso del NS/NC, que ahora dejaremos de lado). Estas preguntas son las más sencillas de clasificar, ya que en el resto se pueden utilizar escalas diferentes como la del 0 al 10, escalas de Likert, gráficos, u otras.

Para estas preguntas, una proporción de los encuestados puede responder que sí, y otra que no (perogrullada al canto), lo que matemáticamente puede representarse como un 1 y un 0, respectivamente. En el caso de haber planteado un muestreo adecuado, la proporción entre ceros y unos debería ser representativa de la población general.

Sumando la cantidad de respuestas 1 y dividiéndolo por el número de encuestados, tenemos una proporción. Así por ejemplo, si se ha hecho la pregunta a 100 personas y 35 han contestado que sí, tenemos que la proporción de síes suma en total:

P(X = sí) = 35/100 = 0,35

Lo que equivaldría a un 35% en términos porcentuales.

Sabiendo que sólo hay dos casos posibles sabemos que la proporción de noes ha sido:

P(X = no) = (100-35)/100 = 65/100 = 0,65

Es decir, un 65% de noes.

De lo anterior se deduce que sabiendo la proporción de respuestas afirmativas, deducimos la proporción de respuestas negativas. Por lo tanto:

P(X=no) = 1 - P(X=sí) = 1 - 0,35.

Para simplificar la nomenclatura, normalmente se indica como P (aunque normalmente en minúsculas) a P(X=sí), mientras que P(X = no) se indica como (1-P), aunque por cuestiones de simplicidad se indica como Q.

En resumen:

P = P(X = Sí)
Q = P(X = No) = 1 - P

¿Hasta aquí se entiende? Bueno pues, sigamos.

En el peor de los casos

Dejando de lado las imperfecciones del trabajo de campo (que darían para mucho), supongamos que tenemos los medios necesarios para garantizar la representatividad de la muestra sólo teniendo en cuenta el tamaño (número de encuestados).

Lo que sucede antes de empezar a calcular la muestra es que no conocemos la proporción de individuos que contestarán sí o no a una determinada respuesta. Por eso es necesario suponer el peor de los casos.

Retornando al título del post, ya sabrás cuál es el peor de los casos, e intuitivamente incluso te puedes imaginar el por qué. Efectivamente, el peor de los casos ocurre cuando hay la misma proporción de individuos que contestan afirmativamente y negativamente.

Te puedes imaginar la situación: tu vas a suponer en cada momento qué va a contestar al siguiente. Si P = Q = 0,5, tienes un 50% de probabilidades de acertar. Y eso es lo mínimo que cabría esperar si puedes elegir entre sí y no, y no hay más respuestas posibles.

Estadísticamente, el proceso de disponer de dos valores posibles para una pregunta se puede modelizar sobre un proceso de Bernouilli. Este modelo estadístico indica que la varianza de una muestra de una población que sigue este modelo es p·q.

Es decir, que la variabilidad de las respuestas se obtiene multiplicando las proporciones de cada una. Ojo, multiplicando, no sumando.

Si sabemos que tanto p como q pueden tomar valores entre 0 y 1, y que la suma de ambas siempre da 1, tenemos los ingredientes necesarios para hacer un análisis de la función de la varianza. Representando el valor de los productos de p y q (considerando incrementos de 0,01). Es decir, vamos a representar:

f(p) = p·q = p · (1-p) = p - p^2

tras lo cual tenemos un gráfico como el siguiente:

Parabola p-(p x p)

Se puede observar que en la mitad del gráfico está el pico máximo. Teniendo en cuenta que es un gráfico entre 0 y 1, se puede intuir el valor intermedio. Para deducir el punto exacto, en el análisis de funciones se utilizan las derivadas. No explicaré lo que son las derivadas, simplemente comentaré que para este caso son formas de detectar la "velocidad" y "aceleración" de la curva.

Esto es un salto sin red para quien no entienda del tema, pero seguro que podrá encontrar amplia literatura al respecto. Teniendo la función anterior:

F(p) = p - p²

Su primera derivada (que indicará la "velocidad") es:

F'(p) = 1 - 2p

Mientras que la segunda derivada es:

F'(p) = -2

De lo anterior se deduce:

Dado que la segunda derivada es una constante negativa, la recta siempre está desacelerando. podemos comprobar que la recta ya "venía subiendo" pero cada vez un poco menos rápido, hasta que empieza a bajar, y luego cada vez va más rápido. Es decir lleva una aceleración negativa. Aunque llevara una inercia, la ha ido perdiendo. Por el hecho que la segunda derivada es una constante también se deduce que la curva es una parábola.
Dado que sabemos que siempre desacelera, sabemos que la curva es convexa (es decir, tiene la concavidad hacia abajo), por lo que si en algún momento la velocidad es nula (el objeto se ha frenado), podemos deducir que se ha llegado al máximo.

Trato de explicar este segundo punto en palabras más llanas: si estás desacelerando, llega un momento que te paras, y desaceleras más, vas en velocidad negativa. Es decir, que vuelves "hacia atrás" (o hacia abajo) por lo que se deduce que habías llegado al máximo de lejos que podías.

Bien, dicho lo anterior, lo que hay que encontrar es un valor para el que se cumpla:

1 - 2p = 0

La resolución es fácil:

1 - 2p = 0 => 1 = 2p => 1/2 = p ==> p = 1/2 = 0,5

voilà. Tenemos la demostración matemática que la máxima varianza se tiene con p = 0,5!

Este cálculo da garantías al conjunto de la encuesta?

Por lo general, este modo de cálculo es una forma de definir un tamaño de muestra. Las encuestas acostumbran a ser mucho más complejas, pero lo cierto es que los casos en los que las respuestas son de sí/no son los más habituales en encuestas sociales. En otros casos se utilizan otros criterios (por ejemplo cuando lo que se busca no es un estudio de proporciones sino de medias o totales).

Lo que sí vale la pena comentar es que el tamaño de muestra obtenido utilizando este criterio proporciona un margen de error para cada pregunta estudiada de una en una.

De lo anterior hay que deducir que cuando se cruzan dos preguntas, las variabilidades en las respuestas de cada cual se combinan, y por ello el grado de error aumenta. Eso no implica directamente que las encuestas sean más falsas, sino que estos datos se pueden utilizar con finalidad descriptiva y no inferencial (para extraer conclusiones), ya que eso provocaría decisiones erróneas por asumir un riesgo mayor del supuesto.

Otras cuestiones que van más allá de este post son la información previa que tenemos sobre una determinada población, ya que ello nos permitiría reducir el margen de error. Esta reducción podría aplicarse en la fase de muestreo, utilizando uno de varios diseños muestrales existentes.

dic. 25
2007

Cosas reaprendidas en un mes y medio

La regla del tr3s

Algunos aprendizajes tienen su clave de humor, y este es el caso de esta regal del "tres". La cuestión es que cuando se trabaja mucho y se tiene en mente muchas cosas, es importante saber cuándo es el límite. En el tratamiento de la información, es importante hacer una tarea hecha con buenas condiciones mentales.

La regla del tr3s dice algo muy sencillo: "si estás tratando de poner un tr3s en minúsculas, ya es hora de dormir".

Otra forma más seria de lo anterior es un comentario que hizo Norbert Bilbeny en el libro "Papers contra la cinta magnètica": en las épocas complejas lo importante es comer a las horas, descansar lo adecuado y no preocuparse por cuestiones metafísicas.

No hay que exigirse más de lo aceptable, por lo que en los momentos con falta de concentración, la clave es tan simple como descansar, charlar de otros temas con los que están cerca, o hacer algo que exija poca concentración mental. Si de ahí se cae dormido, es porque era inevitable.

El entorno y el ambiente

En las épocas complicadas la concentración en los temas claves absorbe la atención casi a tiempo completo. Si estamos hablando de la economía de la atención, en esas épocas cometemos el error de no diversificar.

La principal consecuencia de no diversificar es lo que en términos populares sucede cuando "se ponen todos los huevos en un mismo cesto": cuando los proyectos entran en fases poco gratificantes o directamente frustrantes, no tenemos alternativas para regenerar nuestros ánimos, y llega el bloqueo.

La solución a esto es tener un ambiente bueno para el trabajo pero con alternativas para descansar. Nada de trabajar en la cama ni leer informes a la hora de comer.

También el entorno directo de trabajo debe estar delimitado dentro del espacio. Este espacio delimitado debe disponer de buenas comodidades pero con un buen grado de funcionalidad. Debe disponer de lo necesario para archivar, guardar o eliminar la información según convenga. Todo lo que no es pertinente a la tarea actual la entorpece. Por lo tanto, vale la pena hacer paradas de cinco o diez minutos para hacer reordenaciones parciales.

Si dentro del entorno hay personas queridas, es importante pactar horarios, tareas y objetivos conjuntos. Esas personas queridas que forman parte del entorno personal no pueden verse afectadas por nuestras preocupaciones, aunque es importante que las entiendan. A todos nos gusta que en momentos de bloqueo alguien nos aparezca con un zumito de fruta o un café cargado. Eso dice mucho de quienes nos rodean: reconocen el esfuerzo pero por encima de todo nos ayudan. Hacer lo propio es darse cuenta que hay algo más allá de lo urgente: lo importante.

Es por eso que, en la línea del mejor ecologista posible (porque esto también es ecología), creo que es clave preservar dentro de unos niveles aceptables el entorno y el ambiente de trabajo.

Medios y herramientas

Ante la falta de tiempo, las herramientas son clave: el cuerpo y la mente ganan en extensión, mientras que la atención y la memoria se utilizan en lo necesario.

Una de las herramientas que he aprendido a utilizar más en esta temporada es la lista de tareas. Dentro de Linux y más en concreto KDE, estoy utilizando la suite de gestión de información personal Kontact, que no es más que la integración de correo, calendario, lista de contactos, tareas pendientes, etc. Simplemente genial.

A pesar de los intentos, el intento de integración con el teléfono móvil ha sido infructuoso, por lo que de momento me puedo limitar a sistemas de sincronización entre equipos, como rsync y derivados. En los momentos que uno tiene reuniones doquier y debe tener organizada su agenda, se entiende el concepto de la movilidad: porque uno mismo es móvil, la información también lo debe ser.

Paralelamente a lo anterior, otra de las cosas que he aprendido es que la productividad de un portatil es por lo menos un 30% inferior a la de un ordenador de sobremesa. No es una cuestión de potencia, sino de interficie: cuando uno se acostumbra a un teclado estándar, y a una pantalla grande y un ratón adecuado en tamaño a la propia mano, se da cuenta de cómo cambian las cosas al trabajar en un portátil.

Es por eso que he limitado el uso del portátil para las presentaciones o las tareas con poca actividad operativa. Para el resto de ocasiones en las que no puedo trabajar con mi PC de sobremesa, mejor un portátil que nada. Desde luego hay ocasiones en las que un móvil o un portátil son suficientes: consultar el correo, lista de tareas pendientes, comunicaciones rápidas, etc. Pero en el resto de casos, escojo un ordenador de sobremesa.

Parar, revisar, rumiar, pensar

Javier Leiva ya hizo su comentario hace poco: pensar es importante. Hacer y actuar también lo es, en realidad es un 90% del éxito según la máxima.

Entre pensar y actuar no hay una relación de lucha sino de equilibrio. No me atraen las personas que sólo piensan, como tampoco las que sólo actúan. Lo hagan bien o mal, dejan algo en el camino.

Como decía antes, cada cosa en su momento. Un profesional de la jardinería me lo resumió de una forma mucho más clara de lo que lo hacen la mayoría de libros de management. Se refería al hecho de dirigir equipos de trabajo, pero es algo extensible a la gestión en general: "si estás trabajando la tierra, miras hacia abajo, con lo que no puedes ver lo que pasa a tu alrededor".

Y es que pensar es una actividad estimulante, pero esencialmente incompleta: nuestro pensamiento trata de reconocer nuestro lugar en el mundo, y la forma como podemos mejorar ese lugar. Lo primero se consigue sólo pensando y procesando información, mientras que lo segundo se basa principalmente en actuar sobre unos objetivos definidos.

Un ejemplo claro en el mundo del desarrollo es la diferencia entre el programador y el desarrollador. Todos los que hemos trabajado en el desarrollo hemos tenido cerca verdaderos cracks: gente que está muy por encima de nuestras capacidades, para las cuales aprender un nuevo lenguaje de programación es como leer un nuevo diario. Sin embargo esta gente precisa de una guía para no perderse en disquisiciones bizantinas sobre la estructura de las clases o la programación de excepciones.

Son programadores, gente técnicamente excelente que no sabe ni quiere saber nada sobre las reglas de negocio que paradójicamente permitirán ingresar el dinero necesario para pagar su sueldo. Este perfil profesional requiere de un entorno de trabajo dedicado estrictamente a hacer, con las reglas claras y un cierto grado de libertad para seguir demostrando que saben hacerlo. Pero los objetivos de negocio deben llegarle masticados.

Al respecto de pensar he leído algunas referencias interesantes, especialmente en lo referente a gestión de proyectos. En Navegápolis comentan la relación entre programas y las dietas sanas: mantener los programas sanos y delgados es una cuestión de futuro y no de presente. Por otro lado, conocer las razones por las que falla un proyecto es clave para corregir desviaciones.

He puesto muchos ejemplos en el área de tecnología pero seguro que hay en todas partes.

Conclusiones

Con la calma que da estar redactando este post uno se da cuenta de lo vivido últimamente. Son épocas en las que uno crece, pero no se da cuenta hasta el final. En este caso el espejo son los resultados que los clientes ven, y también los que no se ven.

Los comentarios vertidos hasta aquí son humildes opiniones, aunque hayan podido parecer lo contrario. Otras personas reaprenderán, y de aquí lo inútil de este post. Creo que es importante escribirlo porque es una de las funciones que le doy a este blog: disponer de un sentido de la perspectiva. Después de tanto tiempo sin escribir de forma regular, creo que es de justicia destilar y plasmar lo vivido.

dic. 22
2007

Sistema de tagging - la nube de etiquetas

Características y elementos de las nubes de tags

Por lo que respecta a la definición de una nube de tags, creo que una imagen vale más que mil palabras. Por lo tanto, puedes ver La nube de tags de del.icio.us o bien las de flickr.

La principal utilidad de las nubes de etiquetas es la de presentar información agregada, y en el mejor de los casos, sintetizada (que no resumida). Visualizar una nube de tags de un portal equivale a disponer de un cuadro resumen de conceptos que identifican los contenidos. Cuanto más grandes se presentan los términos en una nube de tags, más frecuente es el uso de ese término. Concretaré este "cuanto más" un poco más abajo.

Después de una primera fase de uso de las nubes de etiquetas, han aparecido algunas variantes en los sistemas de visualización. Algunas de las características introducidas han sido:

Ordenación:

Alfabética: Los términos se ordenan alfabéticamente.
Por frecuencia: Los términos se muestran por frecuencia de uso.

Agrupación:

Alfabética: Los términos se separan por letra inicial.
Semántica: Los términos se agrupan por co-ocurrencia (Hassan, Herrero-Solana; 2006).

Sobre el uso del espacio donde se muestra la nube (Owen, Lemire; 2007):

El espaciado e interlineado entre tags son gestionados por el navegador.
Se aplican técnicas de CSS y HTML para aprovechar mejor el espacio.

Los criterios de ordenación y la agrupación son combinables, por lo que se pueden crear varios niveles de ordenación-agrupación que dieran como resultado una mejor visualización de contenidos.

Uno de los temas que son más de interés para mi ha sido encontrar un algoritmo de determinación del tamaño de las etiquetas. He encontrado información, pero no me ha parecido satisfactoria. Por ejemplo, encontré el artículo de Owen y Lemire anterior un algoritmo para la determinación de los tamaños de etiquetas.

Otro artículo en echochamber me pareció interesante por lo visual de su explicación, aunque conceptualmente creo que es erróneo. El sistema que utilizan es interesante, y en parte muy en la línea de lo que estaba pensando yo, pero no me acabó de convencer. Creo que es un error centrarse en la densidad, y no en la distribución. Es decir, calcular los tamaños de las etiquetas en base a las frecuencias simples, y no a las acumuladas.

Aunque ya es vox populi que la distribución de las etiquetas sigue una distribución con la característica cola larga, esa cola presenta diferentes pesos, el conjunto de la distribución puede tener varias formas, y por lo tanto la determinación de los tamaños puede no ser el adecuado utilizando fórmulas como las indicadas en el artículo anterior.

Abandonarse a las estadísticas

No sólo me apetece: creo que en este caso es lo mejor. Supongamos que las etiquetas siguen una distribución de frecuencias parecidas a la distribución Zipf: cola larga, pocos ítems con mucha frecuencia, muchos ítems con poca frecuencia, y los ítems del rango medio.

Si siguiéramos los criterios de sistemas de indexación full-text, los términos más utilizados se considerarían palabras vacías por ser muy frecuentes, con lo que se descartarían. La principal razón es que un término muy utilizado es un mal criterio discriminante. Por lo general, las etiquetas más utilizadas son las que aparecen en la nube, porque son cuantitativamente más importantes. Esto a nivel semántico no parece lo mejor. Esto también queda para más adelante.

Sin embargo, no descartamos los términos más habituales. La lista de tags ordenados de más a menos frecuente recuerda un gráfico de Pareto.

Echando un vistazo al gráfico de Pareto, podemos ver dos elementos: las barras, que representan la función de densidad (frecuencia en un punto), y la línea, que representa la función de distribución (frecuencia acumulada).

Podemos ver que tanto un esquema como el otro siguen una forma que se puede trazar con una línea curva: sin alteraciones. Esta forma de distribución de los datos, tiene lugar cuando existe una gran cantidad de elementos (recursos etiquetados). La variabilidad se estabiliza y es difícil crear grandes alteraciones sin introducir mucha información

Bajando del tren teórico y volviendo a la realidad: una organización está iniciando la introducción de datos etiquetados. Ese etiquetado ya empieza a presentar una larga cola, debido a que hay términos que sólo se han utilizado una vez. Sin embargo, no existe aún la cabeza de la cola. O quizá lo que está sucediendo es que los "tags medios" aún no se han formado, por lo que hay un hueco entre tags muy frecuentes y los poco frecuentes.

Esta circunstancia puede repetirse cuando se agrupa o se disgregan los tags según alguno de los criterios indicados anteriormente.

De hecho, dentro de un mismo recurso también se da el proceso que tiene lugar en el conjunto: a medida que los usuarios de un sistema de bookmarking social etiquetan un mismo contenido, la distribución se va estabilizando, formando también una distribución con cola larga.

Antes de llegar a la estabilidad, el tamaño de los tags es importante para tener una buena representación. Mostrar todos los tags muy grandes o muy pequeños puede alterar la calidad de la visualización de la nube, y por ello su objetivo. Esto tiene consecuencias a varios niveles: desde la recuperación de la información, hasta el diseño de interficie.

En esta situación, existen varias aproximaciones de base estadística al problema. Aún sabiendo que no seré exhaustivo, destaco tres:

Análisis en base a la "forma" o ley que sigue la distribución de frecuencias. Es decir, análisis paramétrico. Por lo general la mayoría de herramientas del análisis paramétrico se centran en la distribución normal.
Análisis no paramétrico: al no establecer a priori la distribución (ni su forma), se aplican técnicas no basadas en (los parámetros de) esa distribución.
Estadística robusta: Estadística basada en la ordenación de los datos y la obtención de valores estadísticos menos sensibles a variaciones.

De las tres, yo escojo la tercera. Para empezar, es la más sencilla de abordar, ya que las técnicas son sencillas de aplicar. Al no basarse en la distribución, se adaptan mejor a los varios casos posibles de distribuciones. Además, computacionalmente son más abordables (exceptuando por la ordenación).

Aunque esto está por ver, los efectos de utilizar la estadística robusta son intuitivamente más comprensibles por un usuario (administrador de un sitio) que quisiera configurar el comportamiento de la nube de tags, por lo que también se da pie a sencillas interficies de configuración.

La única excepción está en la ya comentada velocidad de computación por el hecho de ordenar la muestra, aunque al tratar con un conjunto ya agregado (antes de ordenar ya se han escogido un grupo reducido de etiquetas), ese aspecto no debería ser preocupante.

Nubes de etiquetas con estadística robusta

Para empezar a abordar las circunstancias comentadas antes, podemos ver un gráfico de lo que sería una distribución acumulada de tags:

Frecuencia de tags

La distribución acumulada viene a decir: si miras el porcentaje en el punto X, el valor acumulado te indica qué porcentaje de elementos (en nuestro caso tags) de la muestra estan por debajo de esa cantidad. Es decir, si en 35 tienes un 70%, quiere decir que el 70% de los tags tienen 35 o menos usos.

En cambio, la información que proporcionan los gráficos de densidad son que en el punto X hay una proporción determinada. En resumen, no dan una visión de conjunto.

Si ordenamos los valores del gráfico de densidad de menor a mayor, tenemos una "función de densidad" siempre creciente, con una forma inversa a la que habitualmente presenta un gráfico de Pareto.

Utilizando percentiles, lo que hacemos es dividir esta lista por partes. Supongamos que seleccionamos 100 tags para la nube. Si queremos una distribución equivalente de cinco tamaños de fuente, podemos seleccionar los percentiles 20,40,60 y 80. Con esto tendremos que:

Entre 0 y 20 tiene tamaño 1 (el más pequeño).
Entre >20 y 40 tiene tamaño 2.
Entre >40 y 60 tiene tamaño 3.
Entre >60 y 80 tiene tamaño 4.
Entre >80 y 100 tiene tamaño 5 (el más grande).

El cálculo de los percentiles con la muestra ordenada es muy sencilla. Para el caso (ideal) que planteo, sólo es necesario escoger los valores que hay en las posciones 20, 40, 60 y 80. Con estos valores, sólo hemos de ir comparando la frecuencia de uso en cada tag y asignar el tamaño del intervalo.

Hagámoslo sencillo: un ejemplo de 10 tags:

tag1 = 1
tag2 = 2
tag3 = 3
tag4 = 5
tag5 = 8
tag6 = 9
tag7 = 14
tag8 = 20
tag9 = 100
tag10 = 150

Con los percentiles anteriores, tenemos que los valores a seleccionar serían 2,5,9,20. A efectos prácticos esto significa que el tag1 y tag2 tienen tamaño 1, .... y el tag9 y tag10 tienen tamaño 5.

Para este cálculo hemos ordenado los tags *por frecuencia*. Lo que sucede a menudo es que al mostrarse en la web, se ordenan alfabéticamente. Por lo tanto, el cálculo de tamaños y el proceso de mostrarse en pantalla se hacen por separado.

Consecuencias del uso de percentiles

Una de las consecuencias del uso de percentiles es que no siempre se consigue un efecto deseable. Por ejemplo, alteraremos la muestra anterior:

tag1 = 1
tag2 = 1
tag3 = 1
tag4 = 5
tag5 = 5
tag6 = 9
tag7 = 22
tag8 = 150
tag9 = 180
tag10 = 2000

En este caso aparecen dos cuestiones importantes:

El percentil 20 sigue siendo 1, pero al generar la nube de etiquetas, el tag3 también se mostrará con tamaño 1. Este efecto es habitual en pequeñas colecciones o en muestras que tienen tendencia a mostrar el comportamiento de larga cola.
El segundo efecto importante es el de tag10: su frecuencia de uso es mayor que la suma del resto, pero a nivel de tamaño se muestra igual que el tag9, cuando en realidad tag9 está más cercano a tag8.

Un consuelo sirve para las dos: en el momento de agrupar y categorizar, siempre existen estas imperfecciones. De los dos, el más preocupante es el segundo, ya que el principal interés al agrupar datos es que se mantenga la representatividad de la información: si un tag utilizado 2000 veces se representa como igual de importante que otro utilizado sólo 180 veces, algo falla.

Por suerte, la estadística robusta ya considera la presencia de los datos extremos (outliers). Estos datos extremos se dan tanto por máximos como por mínimos. Por lo general, su cálculo se realiza mediante cuartiles y el rango intercuartìlico: el rango intercuartílico indica la distancia entre el cuartil 1 y el cuartil 3, lo que equivale a la distancia entre los percentiles 25 y 75. Esta distancia se utiliza como regla de medida para determinar lo máximo esperado para valores no extremos.

Así, si un dato está más allá de N rangos intercuartílicos respecto la mediana, se considera un outlier (valor extremo). En los casos como el gráfico box-plot, lo que se hace es dejar al outlier fuera del gráfico general, aunque marcando su posición. Para el caso que nos ocupa, la cuestión sería utilizar un criterio distinto para cada extremo:

Si se trata de un extremo por mínimo, debería eliminarse: si la nube de tags se utiliza como indicador agregado de contenidos, un mínimo excesivamente bajo no es representativo, ya que probablemente es parte de la "cola".
Para el caso de los máximos, debería existir un tamaño de fuente aplicable sólo a este tipo de datos, ya que de este modo se resaltaría esta propiedad. Es decir, una clase CSS asignada a un tag outlier.

En ambos casos, a medida que aumenta la muestra es muy probable que desaparezcan. Sin embargo, es probable que sigan teniendo presencia en nubes de tags más filtradas.

Una vez saciadas las exigencias de representatividad, ya tenemos un criterio bastante básico, que se puede concretar en el siguiente pseudocódigo.

A = los tags más utilizados y sus frecuencias.
B = Ordenar A de menor a mayor frecuencia.
C = Matriz con los percentiles 20, 40, 60 y 80. (escoger valores en posiciones correspondientes)
Para cada A[i] en A:

Para cada C[j] en C:

Si frecuencia de A[i] <= C[j]:

Imprimir el tag A[i] con tamaño "j"
break (pasar al siguiente tag)

Fin Si

Fin bucle C[j]

Fin bucle A[i]

Conclusiones

Si la web tiene una gran cantidad de contenidos, la nube de tags se convierte en un equivalente nada sintáctico de un resumen. Sin embargo, los formatos de las nubes de tags quizá evolucionen hacia modelos más basados en análisis de co-ocurrencia.

El hecho que se dé una buena representatividad en esta nube reflejará mejor los contenidos, por lo que ayudará a que el usuario pueda decidir si se queda o se va. La distorsión de la nube de tags (con o sin intención) es infructuoso, ya que tarde o temprano el usuario se dará cuenta que la nube no refleja el conjunto.

A nivel técnico, el algoritmo que se deriva del pseudocódigo anterior es rápido. Este tipo de consultas agregadas son sencillas, y el único factor que pudiera jugar en su contra es la memoria que puede utilizar la consulta a la base de datos.

Por delante me quedan varios temas. Uno de ellos es crear un algoritmo de creación de nube de tags que permita varios esquemas de visualización, considerando criterios de ordenación y agrupación combinados.

El segundo, de carácter más técnico, es realizar pruebas de rendimiento sobre varios esquemas de bases de datos enfocados a almacenar sistemas de tagging. Es una pregunta habitual, que también permitirá profundizar en sistemas de optimización de bases de datos.

oct. 11
2007

Propuestas para un sistema de tagging - 1

Morfología del tag

Uno de los aspectos clave que para mí debe ofrecer un sistema de organización de tags es la capacidad para indicar al sistema que el tag en sí no es un término a secas, sino que se trata de un conjunto interpretable morfológicamente.

La morfología de un tag puede venir por una estructura de este estilo:

[prefijo][contexto][concepto][sufijo]

Por ejemplo:

**geo:country=spain(?)

El análisis morfológico para el sistema indicaría lo siguiente:

**: Es un prefijo que podría indicar la importancia (dos estrellas) de esa etiqueta en el conjunto, aunque podría indicar otras cosas.
geo: Se nos está indicando una información de tipo geográfico.
country: En esencia es lo equivalente a un campo de formulario. Aunque a nivel documental, podemos considerarlo una faceta.
(?): Indicaría las garantías de veracidad de la información, aunque también podría indicar otro tipo de modificadores.

Esto no es especialmente novedoso: se denominan machine tags, concepto que ya disponde de un site propio, aunque otros lo llaman triple tags.

El concepto no nada es innovador, aunque es valiente que sitios como Flickr hayan activado estas funcionalidades (por lo que se ve en geobloggers, hace casi dos años).

Documentalistas e informáticos están habituados (de un modo u otro) a este tipo de gestión de la información. Los primeros por el constante trabajo con los metadatos, aunque con una sintaxis diferente. Los segundos, porque en el momento de compilar programas (especialmente en entornos Unix) aparecen las flags, que son opciones de configuración, algunas de las cuales incluyen parámetros y valores.

Aplicabilidad de los tags

También existen trabajos como el del análisis de tags emocionales y operativos realizado por Margaret E. Kipp, que nos indica que el etiquetado no sólo es un lenguaje no controlado, sino también algo más íntimo y/o operativo. No queda claro cuál es la causa y cuál el efecto: es incontrolado porque es personal, o se hace personal por hacerse incontrolado.

Lo que aflora a la vista de las posibilidades indicadas por Kipp es que la falta de control no significa que exista una falta de criterio, sino que simplemente los criterios no están consensuados, ni objetivados.

Cuando es un servicio ajeno a nuestro entorno local de trabajo (un servicio web como del.icio.us) el que ofrece esas funcionalidades, es comprensible que los sistemas de etiquetado y anotaciones (como las que ofrece diigo) sirven para contentar y satisfacer gran cantidad de necesidades.

Vivo en la red, trabajo en mi ordenador

Sin embargo, hay que dar un paso más: aunque los servicios hayan nacido en la web social, cada vez existe un mayor interés en poder disponer de los datos off-line, en el propio disco duro o en el teléfono móvil, y sincronizarlos cuando sea preciso.

Ante este paso adelante, el tagging no sólo sirve para el etiquetado de los recursos ajenos, sino también los personales: la lista de tareas pendientes, la agenda, los contactos, los correos electrónicos, los documentos propios, los favoritos (o en un sentido más amplio, las referencias), la colección de música, fotografías,...

Este etiquetado universal, dejando de lado por un momento los tags compuestos, podría ofrecer funcionalidades del tipo: «puedes buscar el tag "pepito" y te recupera todos los documentos, temas pendientes...». Esta recuperación se basa en el principio que el texto buscado informa sobre el contenido. Este planteamiento de considerar los tags como simples portadores de lo que en inglés denominan aboutness es una visión reduccionista que en un entorno social de etiquetado, lo único que consigue es provocar ruido. En cierto modo sólo es una evolución más de la búsqueda full-text.

Al introducir funcionalidades basadas en tags compuestos, permitimos el tratamiento de metadatos, la inclusión de facetas, y muchas posibilidades (por ejemplo, indexar utilizando la CDU: *cdu=...).

(Continuaré comentando este tema en otro post).

oct. 11
2007

Propuestas para un sistema de tagging - 2

Etiqueta: es una orden

Volvamos a la hipótesis que indicaba en el post anterior: el usuario trabaja en un entorno de trabajo individual (local), donde dispone de una serie de herramientas (aplicaciones) y toda la información es gestionada por un solo sistema de etiquetado. En ese contexto, es posible pensar en tags del tipo:

--sent-to:myfriend@example.com [enviar esta información a un amigo]

--project-attach:project1 [adjuntar a la lista de documentos y recursos del proyecto project1]

--apply-filter:filter1 [Aplicar filtro "filter1"]

--set-event?title=werwer&date=2007-10-05

Aunque he mostrado unas cuantas variantes estructuralmente diferentes, lo que quiero explicar es que se puede etiquetar enfocando la etiqueta a órdenes y procedimientos. Existe una funcionalidad parecida en los sistemas de filtro de los correos: un análisis del contenido permite asignar una ubicación, marcar el mensaje como importante, o simplemente eliminarlo.

El caso inverso también es posible: si un fitro sitúa un mensaje en una carpeta, asignar una o más etiquetas. Si se ejecuta una aplicación que carga un determinado documento, indicar una etiqueta que indique esta acción.

En este contexto, tags y flags trabajan sobre una misma base, ya que el sistema de tagging se convierte en un despachador de mensajes para todo un entorno de trabajo. Desde el punto de vista de un programador, esta afirmación es trivial, aunque soy consciente que no es apta para todo el mundo.

El punto clave para el éxito o el fracaso de estas funcionalidades es la mejora en la calidad de vida de los usuarios, especialmente en lo relativo a la productividad.

En algún punto entre los tags más simples y los casos complejos indicados antes, quizá exista la posibilidad de rellenar un formulario que generará tales tags: si el esfuerzo por etiquetar es mayor (o induce a más errores) que rellenar cuatro campos, el formulario servirá como opción. Por lo demás habremos conectado dos sistemas de introducción de datos.

Sincronización e intercambio

El entorno local de trabajo no puede ser el de la vida habitual de un usuario de Internet: estar al corriente de la novedades requiere conectarse. La variedad de entornos de actividad (trabajo, casa, segunda residencia, casa de un amigo) presenta conflictos varios entre el acceso y la confidencialidad de la información.

Probablemente os ha pasado que al utilizar el programa de mensajería, no queréis que los compañeros de trabajo sepan que estás ahí. También ha sucede que necesitáis un documento que no tenéis disponible porque está en otro ordenador.

Al fin y al cabo es una cuestión de red y terminales: la red permite acceder a una gran cantidad de recursos, pero esos recursos deben llegar al terminal desde el que estamos consultando información. Para evitar la pérdida de eficiencia que supone trabajar en varios terminales (y varios usuarios), la clave está un sistema que permita la sincronización entre terminales, utilizando un servicio central o mediante la arquitectura P2P solucionaría el problema de la ubicación del terminal. Es parecido a lo que sucede en el software de control de versiones como CVS o Subversion, aunque estos sistemas no permiten ir más allá de los archivos de texto para el control de modificaciones.

Cuando ese proceso de sincronización se realiza respecto a la información generada por otros usuarios u organizaciones, el volumen y a diferencia de criterios en el etiquetado va en aumento. Las consecuencias de la polisemia, la sinonimia, los idiomas, terminología técnica, etc. Esta red genera etiquetas que sólo cada usuario individualmente tiene la capacidad para seleccionar. Esa selección implica asimilar nuevas etiquetas, pero lo más importante es definir relaciones con las propias etiquetas: cuando el usuario X utiliza la etiqueta Y, yo lo entiendo como la etiqueta Z.

Entre todas estas relaciones y sinapsis de tags, un usuario sabe identificar las etiquetas sinónimas, las mal escritas y las que no tienen un significado claro. Es el momento de establecer relaciones semánticas o documentales entre etiquetas, y es posible que este usuario pueda organizar su propio listado de tags de interés. Esos tags no son nuestros tags, pero pueden ser sinónimos, equivalentes documentales, términos inadecuados para nuestro vocabulario, o que quizá por la polisemia, tengan significados diferentes para otros usuarios. Disponer de esas sinapsis implicaría disponer de un flujo constante y con un buen nivel de filtrado para disponer de información de interés.

La circunstancia de uso implica que un usuario concreto busque fuentes de información relativas a un tema (pongamos programación orientada a objetos), sobre el cual el utiliza la etiqueta "POO". Sin embargo, encuentra que otros usuarios utilizan otras etiquetas, como OOP, object-oriented-programming, objects, etc. Ante esta variedad de usos, podría ser que algunas de etiquetas (y en especial algunos usuarios) pudieran buscar o disponer de información parecida.

El sistema consistiría en que este usuario pudiera utilizar un sistema de organización parecido a una lista de encabezamientos para indicar equivalencias. Esto implicaría "Mi POO equivale a la OOP del usuario X, y a objects del usuario Y". Es una regla de filtro que genera información bastante más limpia, y que ya llega previamente organizada.

Ante todo esto, las organizaciones podrían disponer de sistemas de etiquetado que a su vez serían integrables en la red de usuarios.

Tags, búsquedas y reglas de filtro como documentos

Los desarrolladores lo tienen claro: el código fuente es a la vez contenido y proceso. Esta dualidad es la que provoca el debate entre el uso de las leyes de patentes o de la propiedad intelectual para su regulación. En el entorno digital, la interacción con un sistema genera siempre esta dualidad: los trucos y hacks (los que ponen a prueba el software de una forma ética) juegan con esa dualidad, y los profesionales de la información podrían empezar a aplicar ese criterio. Por eso, tus búsquedas son documentos, y tus tags también.

En el momento que la información escrita interactúa o se convierte en un proceso, significa que es exportable a otros usuarios del mismo servicio, o a los responsables de este servicio. En el momento que esas entradas de información se utilizan para mejorar la calidad de la recuperación de la información, se convierten en documentos, aunque no tienen una estructura tan completa como los que tradicionalmente utilizamos, y quizá sean más crípticos cuando se trata de extraer conocimientos concretos.

También el concepto de formato de documento implica que los datos en pasivo son procesados por una aplicación que entiende ese formato. Ese paso a la acción es una propiedad que se ha ido trasladando a los profesionales de la información.

Hace poco que se notificaba que Google almacena el historial de nuestras búsquedas. Aunque el argumento de Google es ofrecer una recuperación de la información más adecuada a nuestras necesidades de información, no cabe duda que (probablemente desde hace tiempo) el gran buscador almacena datos precisos de nuestra actividad. Es factible pensar que tanto dato almacenado tiene un interés estrictamente económico.

Intermediación y profesionales de la información

Opino que las sinapsis de tags tal como las comentaba antes, son un reflejo de lo que se denomina inteligencia colectiva. La inteligencia colectiva representada en forma de etiquetas es algo más procesable, pero no necesariamente más explícita. De esta inmensa nube de información, identificar las fuentes fiables es complejo.

Al lado de ese criterio, no parece imposile la existencia de una serie de perfiles de usuarios que generan reglas de filtrado sobre varias fuentes de información. Con la intención de ofrecer información depurada, adecuada e incluso comentada o resumida, se puede ofrecer este servicio a un determinado perfil de usuarios que trabajan intensamente sobre estas fuentes de información y que andan totalmente saturados. La transmisión de esta selección de artículos podría realizarse por varios canales (RSS, e-mail, impreso).

Este tipo de usuarios actuarían como intermediarios entre los usuarios y la información, pero también entre usuarios y una serie de tecnologías (como RSS) que no acaban de aflorar entre la masa de usuarios de Internet. A pesar de ello, la clave no está en la tecnología de comunicación sino en el servicio de filtro. Quienes tienen más de 200 posts al día, de los cuales casi la mitad sean de poco interés, quizá entiendieran ese servicio como una forma de reducir el tiempo (o aumentar las fuentes).

Dentro de todo este esquema, este conjunto de intermediarios podrían estar interesados en generar una estructura de etiquetas más cercanas a un lenguaje controlado. Utilizando este sistema de sinapsis (tags relacionados sin necesidad de adoptarlos) es posible que convivan lenguajes controlados y no controlados, sin que el usuario precise adecuarse al entorno, ni a la inversa.

Como apunte final, cabe comentar una última utilidad para la adaptación de los usuarios al entorno de intercambio: los tags utilizados para etiquetar los posts de un blog podrían "transformarse" si quien está accediendo a la página es una araña (crawler). Sabiendo que una araña está recogiendo información sobre mi página, sería posible indicar los tags aplicando un enlace hacia el tag en technorati, del.icio.us o algo por el estilo. Probablemente los más expertos en SEO podría extraer ideas para mejorar el posicionamiento. Este proceso no debe considerarse cloaking, ya que lo único que se está haciendo es proporcionar al buscador una referencia que él mismo valora. Es MUY probable que ya esté implantado en algún sitio, lo único que añado aquí es integrarlo en un sistema de tags.

Del árbol a la red

La teoría de grafos es una de esas disciplinas que han emergido con la aparición de Internet. Tienen un uso muy difundido en entornos donde la estructura en red es habitual, como la red eléctrica o las carreteras.

En Internet, el grafo casi lo es todo: la arquitectura de la propia red, la organización de sus contenidos, las relaciones sociales... Internet es un grafo hecho realidad.

Dentro de la teoría de grafos, el árbol es considerado también un grafo, sólo que su estructura jerárquica implica que las posibilidades de recorrer todos sus puntos sólo se puede hacer "subiendo y bajando" dentro de la jerarquía.

En la organización del conocimiento, el tesauro es la gran herramienta. Es fruto de esfuerzos y por ello compendio de criterios y objetivaciones. Es una destilación de conocimiento.

Su estructura jerárquica permite desplazarse de lo universal a lo individual, recorriendo de lo genérico a lo específico por una escalera de varios pisos. Esta jerarquía está enhebrada también por términos relacionados, términos no autorizados y demás, pero en esencia es un árbol.

Mi opinión es que el tesauro deberá adaptarse al nuevo entorno. Aunque pueda utilizarse como esqueleto de un lenguaje documental con estructura en red, como las ontologías. La web semántica y las OWL serán el objetivo y la forma final hacia la que puedan evolucionar las relaciones entre etiquetas y los documentos indexados. El etiquetado social ha venido para quedarse, y vale la pena extraer la parte interesante en entornos de tratamiento de la información.

La evolución de los tags, el tagging y las herramientas de los profesionales de la información probablemente se adecuarán a la arquitectura que están planificando Adobe con su AIR, Promokey, Sun/Java y desde luego, Microsoft.

oct. 6
2007

Seis meses y un blog

Alrededor de esto están las primeras sensaciones de gestionar un blog, realizar un seguimiento y análisis de lo que pasa detrás, y realizar ajustes.

Lo que más me está gustando es superar (mejor o peor, eso va al gusto de cada cual) el reto de plasmar lo que pienso, con la esperanza que al menos lo entendáis. Aún llevando años escribiendo y recopilando ideas, artículos y demás; aún así, concretarlo en algo más que unos apuntes en el papel. Ponerlo luego a libre disposición pesa por el miedo al error, pero me gusta.

Los temas pendientes

Lo que llevo hecho hasta ahora me lleva a lo que tengo pendiente. A nivel de contenidos hay algunos temas que he abierto y no he cerrado (me quedan al menos dos puntos en la serie de gestión de la información, por ejemplo), y aún quedan cosillas pendientes de la lista de tareas del verano, pero ya irán viniendo.

Estoy convencido que mis posts tienen bastantes errores e imprecisiones. Entre la lista de temas a mejorar está (por razones profesionales) el mejorar mis citas y referencias a las fuentes, que a veces son poco claras.

Además de los contenidos, lo que me interesa trabajar como prioridad son las funcionalidades del entorno.

Es algo triste que en este blog, donde he hablado de tagging y la web 2.0, no existan tags, y no estén implantados funcionalidades como el trackback, el permalink, los links de menéame, del.icio.us y demás funcionalidades similares.

Lo que más novedades traerá son los tags, ya que tengo unas cuantas ideas en mente que darán cuerda para experimentar.

En la vertiente técnica, y exceptuando el adsense (que por otro lado no interfiere en la navegación), el sitio cumple con las especificaciones WAI-A, CSS-2.0, y XHTML-1.0 (Transitional, pero por poco). Eso forma parte de la experiencia de tener mi blog: no he utilizado una herramienta de blog ni un CMS para la ocasión.

Todo esto repercute en una apariencia que puede calificarse de simplona (o cutre), aunque con las nuevas funcionalidades se añadirá más posibilidades a la navegación, y además, espero poder inaugurar dentro de poco un nuevo diseño.

En otros aspectos como la promoción y la socialización, voy a tratar de dar un empujón al blog introduciendo herramientas semiautomáticas de publicación en herramientas como del.icio.us, technorati (aunque por lo que sé, va a la baja) y otros servicios parecidos. Es probable que con todo esto también incluya experimentos de publicidad para poder explicar cómo se podrían aplicar estrategias de promoción. Esta es la última parte a tratar.

Las estadísticas

Desde luego el servidor no va a caerse por tráfico, aunque estoy bastante satisfecho con la evolución del blog y la actividad que recibe. Por favor, ahogad las risas que estoy la mar de ilusionado con estos datos que presento a continuación:

Este mes de Septiembre se cerró con 289 visitas y 463 páginas vistas. El incremento porcentual desde Abril ha sido bastante lineal, y sólo quedó interrumpido por el bajo nivel de visitas de Agosto.
En Septiembre llegaron 247 usuarios únicos absolutos. Los usuarios que visitan mi web "van al grano" o no encuentran lo que buscan, ya que se quedan para ver una media de 1,6 páginas/visita durante una media de 1:36 minutos. Quizá cabe mencionar que en algunas búsquedas, la palabra "sopa" despista a los usuarios, aunque creo que es un efecto minoritario.
Los posts más visitados a lo largo de estos 6 meses han sido (de menos a más) el de Yahoo! Pipes, el primer post sobre IBSN y el de Open Flash Chart.
Google es la fuente principal de visitas, aunque lentamente van llegando entradas desde technorati, Yahoo!, acceso directo, del.icio.us, etc. foros.jarfil.net también envía visitas con más o menos regularidad. Pero las cosas claras: el 60% de accesos desde búsquedas en Google deja claro el peso de esta fuente de tráfico. Como ya comentaba antes, la promoción y el SEO serán dos temas que trataré en el próximo semestre.

Ya está. Por ahora hay poquita cosa. Me queda por añadir que otro tema pendiente es introducir un gestor de estadísticas propio, ya que Google Analytics no me convence del todo, no me permite seguir vuestras lecturas por RSS, y a veces me plantea dudas sobre la total veracidad de la información. Eso no quiere decir que esté mal... Como herramienta cumple con una parte importante de objetivos de análisis.

Lo que sucede es que creo que la clave para sacar el jugo a los sistemas de estadísticas es poder personalizar y analizar mejor la navegación y la interacción según la temática concreta de cada contenido. Poder poner dentro del análisis la densidad de términos los textos de los enlaces, etc., creo que será imprescindible para entender la interacción y extraer mayor valor económico.

Con estos datos y las buenas intenciones anteriores, lo dejo por hoy.

oct. 3
2007

Normalización y distancias normalizadas

Normalizar o no normalizar

Tomando el término en su sentido más etimológico, normalizar puede entenderse como "ajustar algo a una norma". Lo que es evidente del caso anterior es que tu jefe no te ha concretado la norma a seguir. Si echas un vistazo a la hoja, existen varias opciones por escoger:

- Caligrafía/Tipografía.
- Ortografía.
- Estructura textual/argumental.
- Estilo y/o Imagen corporativa.

El papel entregado no cumple nada de lo anterior: es un esquema de alguna ocurrencia que no deja de ser un conocimiento que está tratando de explicitarse. Eso no lo convierte en un mal documento, sólo que no está preparado para ser compartido.

Normalización como forma de consenso

Cada uno de los niveles de normalización anteriores trata de solucionar una posible causa de confusión. Veamos:

La caligrafía evita las confusiones en el proceso de lectura, al hacer más evidente la forma de las letras. Escoger una tipografía y tamaño adecuados también es importante para una correcta lectura. Esto reduce el error en el proceso de identificación visual.
La ortografía evita dificultades en la interpretación de los términos. Si es un ser humano quien lee el documento, es posible que encuentre la causa del error y que mentalmente lo convierta en el término adecuado. En el caso de la máquina eso es igualmente factible, pero no tan fiable.
La estructura textual y argumental permite identificar con más claridad el punto de partida, el conflicto y el desenlace. No tiene nada que ver con el significado del documento, sino con sus objetivos.
El estilo y la imagen corporativa ayudan a asociar el contenido de un documento con una marca, mensaje e incluso con el esquema de valores que trata de transmitir plasmada en éste.

De los puntos anteriores se puede desprender la conclusión que normalizar implica reducir el margen de error y aumentar la potencia del mensaje.

Lo que define la normalización es la forma como se puede estructurar un conjunto de información para que quienes entiendan "la norma" puedan entender este mensaje documentado con un riesgo mínimo de error.

Bajo estas circunstancias, normalizar equivale a consensuar la forma externa de un mensaje. Esto se consigue homogeneizando la estructura, la terminología o el estilo.

Cuanto más reducido y especializado es un entorno, más estrictos son los criterios de normalización. Ademas, se acostumbra a dar la paradoja que un documento normalizado en ese entorno tan restrictivo acostumbra a ser incomprensible para alguien ajeno a ese entorno. Por ejemplo, el código fuente de un programa acostumbra a ser incomprensible para alguien no acostumbrado a ello. Los ingenios industriales acostumbran a presentar muchos casos de esto. La jerga de un sector de actividad también tiene esas características. Los documentalistas podemos comprobarlo fácilmente: echamos un vistazo al tesauro que se corresponda, y pronto nos podemos dar cuenta de lo mucho que no conocemos.

La forma de ponerse de acuerdo en los aspectos significativos se ha centrado en la actualidad en las organizaciones como la ISO (International Standards Organization), ANSI y demás.

En la UE, se puede publicar un libro verde o green paper con la intención de exponer una serie de razones no vinculantes por las que podría estudiarse la posibilidad de definir unas normas. El proceso puede pasar por analizar las buenas prácticas de una actividad, explicitar una operativa que refleje esas buenas prácticas, y posteriormente definir la norma.

Normalización matemática

Hasta ahora he comentado la normalización en un sentido general. Aunque en las matemáticas el concepto es casi equivalente, el contexto de uso cambia un poco.

Por lo general, aquí el concepto de "norma" se puede entender como intervalo (si queremos ajustarnos a unas restricciones geométricas) o algoritmo (si la cuestión es procesar los datos para que sirvan a un determinado criterio).

Lo que en general significa normalizar dentro de las matemáticas, es procesar la información para que dos conjuntos diferentes de datos sean comparables. Eso por ejemplo sucede con los indicadores: muchos indicadores se "normalizan" para tomar valores entre 0 y 1. Muy a menudo ese valor se multiplica por 100 para obtener un porcentaje (estamos al 75% del nivel de producción), aunque esa práctica pueda ser algo dudosa.

En un proceso como el anterior, normalizar no significa "convertir los datos a la distribución normal". Esa es un uso lógico del lenguaje, pero inexacto: es por eso que yo creo que es preferible utilizar el término "estandarizar" cuando se habla de la distribución normal. Aunque ese proceso se le llame normalizar, creo que es un uso inadecuado de una palabra con un sentido más amplio. Por ejemplo, una respuesta en Yahoo! Answers sobre la normalización me parece más o menos correcta, aunque creo que normalizar implicando al teorema central del límite me parece fuera de lugar. El TCL no normaliza, ni uno normaliza utilizando el TCL: lo que sucede es que cuando se llegan a unos extremos expuestos por el TCL, existe una convergencia, fruto de la suma de variables aleatorias, que conduce el conjunto hacia una distribución normal. Es parecido pero no es idéntico.

Por lo general, la normalización se basa a un algoritmo (implantado informáticamente o no). Este algoritmo puede presentarse en forma de lenguaje natural, diagrama de flujo, código fuente de lenguaje de programación... Puede entenderse el algoritmo como una serie de reglas a seguir, independientemente de las herramientas utilizadas para aplicarlo.

Google y sus distancias

Por ejemplo el PageRank es un algoritmo de normalización, basado en tratar una gran variedad de factores que se dan en documentos de hipertexto, para finalmente dar un valor entre 0 y 10. Puntuar del 0 al 10 es algo muy sencillo de entender, aunque es un cálculo costoso.

El PR es una medida unidimensional, como gran parte de los valores normalizados con los que tratamos cotidianamente. Sin embargo, algunos valores normalizados pueden ser multidimensionales. La normalización no implica tener un número concreto, sino que los números cumplan criterios concretos.

Uno de esos casos es la distancia normalizada de google, que ya cité como una de las tareas pendientes este pasado verano.

Tanto el PageRank de Google (PRG ó GPR) como la distancia normalizada de Google (DNG ó por GND) tienen una característica especial: la medición de las distancias entre los elementos no se obtiene por el proceso secuencial de los datos, sino por las relaciones entre ellos. Por lo tanto, al estudiarse las relaciones entre ellos, se normalizan las distancias entre elementos, y no la distancia entre un elemento y los ejes de coordenadas.

Lo que sucede es que el GPR acaba extrayendo un valor "independiente" para cada elemento, mientras que la DNG se queda con las interrelaciones, que habitualmente se representan en un grafo.

Dado que el GPR ha sido ampliamente expuesto en otros artículos [fuentes], sólo cabe comentar que ambos algoritmos se basan en cálculos algebraicos, basados en vectores propios y valores propios (formas "normalizadas" de matrices).

En cambio, la visión más -llamémoslo así- holística de los datos, precisa de un tratamiento previo antes de la representación gráfica. Resumiendo mucho, la representación gráfica utiliza unos ejes de coordenadas que en sí mismos ya son una "norma", con lo que representar gràficamente las relaciones entre términos significa normalizar.

Lo que sucede con esta normalización es equivalente (que no idéntico) al cálculo que se aplica al aplicar la indexación a texto completo, calculando la densidad normalizada de una palabra dentro del documento y de la colección indexada.

Se supone que el objetivo final de la DNG es extraer conocimiento: si existen relaciones entre dos términos, ¿Pueden ser sinónimos, antónimos...? Para extraer algunas de estas conclusiones, se han utilizado herramientas como el análisis semántico latente, o la singular value decomposition (SVD) (que es el homónimo de los valores propios aplicado a matrices no cuadradas), con más o menos éxito.

Vale la pena comentar que la lectura del documento explicativo de la GND es interesante, aunque muy árida a quien no se le den bien las matemáticas. Para esos casos, recomiendo tratar de entender las explicaciones que se dan, que por lo demás tienen bastante sentido común.

sept. 24
2007

Demo Ley de Hondt

sept. 24
2007

El sistema d'Hondt

El funcionamiento de la ley de Hondt

Explicar a fondo la ley de Hondt creo que no procede: he leído con detalle la entrada en la Wikipedia en Español sobre la ley de Hondt y lo creo suficiente como introducción.

El proceso de división que se da para cada caso es lo que se podría denominar una sucesión armónica (sería una serie armónica si los cocientes se sumaran) que es equivalente para todos los partidos, salvo porque hay que multiplicar por el número de votos.

Esa sucesión forma una curva asintótica respecto al eje y=0 para valores enteros positivos. A efectos prácticos, puedes imaginarte un avión de papel lanzado desde la ventana de un edificio, que va planeando cada vez más cerca del suelo pero sin llegarlo a tocar nunca.

...No, no hay viento.

Al realizar el cálculo de la ley de Hondt, cada partido lanza ese avión, pero con una diferencia substancial: cuantos más votos, más alta es la posición de lanzamiento. Supongamos que un voto equivale a un centímetro: diez mil votos son cien metros de altura.

El jefe de filas sube la escalera y lanza el avioncito. La trayectoria descrita por cada avión de papel es registrada y se ponen en común las alturas de cada avión en cada segundo. Las mayores alturas se llevan los escaños.

Repasemos mentalmente las trayectorias de los aviones: Cuanto más tiempo transcurre, más parecidas son las alturas de los aviones. Eso implica que cuanto más a repartir entre partidos, más equilibrado es el reparto. Es más equilibrado porque hay algo de aleatorio: haber lanzado unos centímetros más arriba o más abajo el avión, da o quita un escaño: el planeo final es clave. Los aviones sólo quedarían a la misma altura en caso de llegar al infinito, con lo que a largo plazo el partido más votado siempre parece algo más favorecido.

Eso queda algo rebatido al hacer ciertas pruebas, que espero que con la demo ahora tengas más cerca.

La demo

Podéis acceder a la demo desde la página de recursos.

Debo decir antes de todo que la demostración es sencillita y que se podría haber decorado o coloreado más, pero me he limitado a lo estrictamente necesario para que sea funcional.

La he colgado en el apartado "descargas", que he pasado a titular "recursos" (buscando un término genérico).

El funcionamiento es bastante sencillo y salvo el propio archivo de Flash, todo el código utilizado es estático: XHTML y CSS. El archivo Flash muestra en un gráfico de frecuencias los pasos del cálculo de la ley de Hondt, y el reparto resultante de escaños.

Lo primero es introducir el número de escaños y el mínimo porcentaje de votos para entrar en el cálculo.
En segundo lugar, indica los votos recogidos por cada partido, abstención, en blanco, etc.
Una vez introducidos los datos, clicando en "calcular". Ya está.

Los resultados se muestran en tres partes diferentes que paso a comentar.

Tabla de asignaciones

Situada en la parte superior derecha de la página, esta tabla indica los escaños asignados, el porcentaje de votos y el porcentaje de escaños. Esta relación entre los porcentajes anteriores es importante, ya que es el tipo de reivindicación que se da ante la ley de Hondt: que favorece a los partidos grandes.

Puedes comprobar que eso no siempre es así, ya que hay ocasiones en las que los partidos pequeños absorben un escaño del grande. Los últimos escaños a repartir (especialmente cuando se trata de una gran cantidad: más de cien por poner un caso) son una verdadera lotería.

Tabla de divisiones

En la parte inferior de la página, muestra el proceso de dividir los votos en cada iteración. Estas divisiones se ordenan y se muestran en la última columna (que muestra el título Hondt). éste es el resultado de repartir los escaños: indica la cantidad con la que se ha asignado cada escaño.

Gráfico de divisiones

Parecido a lo anterior, el gráfico de divisiones representa gráficamente la tabla anterior. En este caso es de notar que cuanta más competencia hay entre dos partidos (pongamos los dos mayoritarios), más "rugosa" es la curva que marca la asignación de partidos (la línea "Hondt"). El avión encuentra turbulencias.

Transferencia de datos a Open Flash Chart

El gráfico utilizado es de frecuencias sin puntos. He tomado esta decisión porque tenéis la lista de valores en la tabla de debajo, con lo que no hay necesidad de ponerlo de nuevo en el gráfico.

Para los que quieran ver cómo se transfieren los datos a OFC, sólo cabe comentar que se serializan los datos y se identifican con una clave. Esa clave se introduce en la URL en la carga del archivo SWF, y el resto es tarea de OFC.

Podéis ver el contenido que devuelve la llamada del parámetro "data" de la URL, y sacar conclusiones por vuestra cuenta...

Debo hacer notar que a medida que aumenta el número de datos, el tiempo de proceso del gráfico aumenta, aunque en general nada alarmante.

sept. 24
2007

Emprender y los profesionales de la información

Universidad y emprender

Emprender probablemente es el último de los pasos de un camino que va desde la detección de una necesidad hasta la verificación de su rentabilidad. Es decir, el paso de "podría estar bien" al "pues quizá me podría ganar la vida con esto". Lo primero se da muy habitualmente, pero como dijera Thomas Edison, el éxito es un 10% inspiración y 90% transpiración. La buena noticia es que el primer 10% es relativamente fácil de llevar a cabo, aunque algo aleatorio.

La biblioteconomía y documentación recoge una buena herencia humanística, combinada con métodos formalmente más cercanos a carreras de corte científico-técnico. Esta mezcla puede ser un buen caldo de cultivo para formar un criterio al respecto de lo que funciona y lo que falla en la gestión de la información. Detectar las causas de la distancia entre el usuario y el servicio, saber seleccionar los criterios de organización que dan valor (y acceso) a la colección.

Sin embargo, y salvo excepciones remarcables, la evolución de la idea no llega al final. Eso en sí tampoco no es remarcable: pocas ideas llegan a término, y aún son menos las que triunfan.

Si algo es cierto, es que el enfoque tan académico de la formación universitaria que he recibido no favorece a una mentalidad creativa, innovadora ni mucho menos emprendedora. Creo que eso viene con la experiencia, el entorno o la necesidad de cada cual. Yo no lo he encontrado en la universidad.

Documentalistas en el sector terciario

Lo extraño es que en esta época en la que gran parte del volumen del PIB se destila del sector terciario, y con la información, el valor de la marca, los valores y los significados como factores críticos; en esta época los profesionales de la información no han encontrado un lugar claro en la cadena de valor de la información del sector privado.

Hasta la fecha (lo digo sin datos en las manos) podría afirmar que una gran mayoría de los estudiantes titulados en biblioteconomía y documentación que deseen dedicarse a lo que han aprendido en la facultad, estarán trabajando en una biblioteca o archivo, aspiran a ello o están pensando en la administración pública como fuente de empleo. Reitero que no tengo datos: es un tema que tengo pendiente.

Esta situación prácticamente equipara la profesión a una especie en cautividad: al no introducirse en el sector privado de forma clara, es difícil iniciar un tanteo de oferta-demanda sobre lo aprendido y lo necesario: permanecer en un ecosistema controlado no es garantía de supervivencia. Da igual si hablamos de autoocupación o de trabajar por cuenta ajena. Probablemente todos conozcamos casos, pero no son habituales: las instituciones públicas siguen siendo los mayores empleadores de profesionales de la información.

Esto tiene sentido en el cuando el acceso a la información ha sido un valor preciado para la educación y formación de las personas a lo largo de los tiempos. Al transferir la gestión a profesionales y personas interesadas en organizar y dar acceso a esa documentación, las bibliotecas se convertían en valores a preservar de las leyes del mercado, para evitar conflictos entre preservación y rentabilidad. Y es necesario que eso continúe siendo así.

Lo que pasa actualmente es que tales instituciones han saciado una gran parte de la necesidad de empleo de especialistas, con lo que el ritmo de ofertas de empleo no crece al mismo ritmo que la demanda de ocupación en ese ámbito. Año tras año aumentará ese desajuste, exceptuando las épocas de oposiciones, bolsas de trabajo y oferta de plazas.

La administración no puede seguir creciendo indefinidamente, creando nuevas plazas de bibliotecarios: mantener esta estructura es costoso y debe justificarse al definir los presupuestos. Tal como oí en cierta ocasión: "¿Si hay que escoger entre una cama de hospital y un asiento más en la biblioteca, con qué te quedarías?". Si decides lo segundo, espero que nadie a tu alrededor se ponga enfermo.

Fuera de esto, la opción de iniciar una trayectoria profesional como becarios es algo a considerar con calma. Al igual que en otras profesiones, las becas y los convenios de formación no han proporcionado mucha más visibilidad al titulado, ni mucho menos han favorecido a mejorar su retribución. En los casos más reprochables, el becario acaba fotocopiando, trayendo el café o realizando tareas puramente administrativas, que no le exigen aportar ningún valor por lo aprendido en su carrera.

En su favor vale la pena decir que tales convenios son una puerta de entrada al mercado laboral, aunque en nuestro caso el principal ofertador de puestos es la administración pública.

Necesidad y marketing

Al lado de esto, la necesidad en el sector privado existe, y es urgente. Por ahora se subsana dentro de las empresas contratando personal no especializado o reasignando tareas a personal ya existente. Eso en sí ya es un primer paso, un paso positivo. Por parte del empresario, eso ya implica la identificación de la necesidad.

Pienso en la gestión documental porque es la aplicación más directa. La dualidad entre información digital e impresa, la gestión de versiones, gestión documental colaborativa, intranets de gestión documental, recuperación de la información, eliminar los archivos duplicados, reorganizar nuestra colección y nuestro fondo...

Tareas habituales, casi diría del 20% de tareas que generan el clásico 80% de la ley de Pareto. Y es que las necesidades del día a día imperan sobre disquisiciones y argumentaciones conceptuales sobre formas externas, reglas de catalogación o algoritmos de indexación semiautomática.

Lo que pasa es que se dan dos situaciones negativas que se complementan: Las capacidades y conocimientos del profesional de la información son desconocidas por los empleadores del sector privado. Por ese desconocimiento, cualquier mejora mínima de los criterios de organización y gestión documental (por lo general pueden ser mejoras de un carácter administrativo básico) son suficientes para justificar un esfuerzo básico. Ante esa mejora, el empleador percibe que no es necesaria la formación universitaria (con el incremento de salario que eso supone).

Me pasan por la mente muchas formas de expresar esta situación. Y hay una en concreto que es muy familiar para los profesionales de la información: relevancia. Por ahora no hemos sido capaces de dar relevancia a nuestros conocimientos cuando alguien busca personal que solucione el caos documental.

La clave es entender que las reglas cambian: no nos vendrán a buscar si no avisamos que estamos ahí. El estereotipo del bibliotecario con las gafas caídas pesa en las espaldas de quien se dirige al sector privado. Ese estereotipo durará el tiempo que se tarde en llevar a cabo una mejora en la gestión documental. Tampoco vale la pena rasgarse las vestiduras por el aclamado fenómeno de la intrusión: a diferencia del sector público, en el sector privado existe cierto nivel de meritocracia, con lo que la clave no está en un documento oficial, sino en las aportaciones y la implicación en el día a día.

A pesar de Google o precisamente por él, con o sin Wikipedia, basándonos o no en la sabiduría de las masas, la necesidad de organizar, gestionar y recuperar información existe. Cuanto más trasiego de información, más necesidad de cribar, organizar, y desechar. Aunque la proporción de información útil se mantiene, su volumen aumenta. Es por eso que crear reglas, criterios y hábitos de una gestión sostenible de la información implica dinero ahorrado, y por ello un margen de beneficios para las iniciativas en el sector privado.

La información es la fortaleza y el talón de Aquiles de las empresas: cada vez es mayor su valor, lo que sucede que ese valor se presenta en forma de riesgo: es necesario aprovecharla bien, o cualquier otro la aprovechará mejor. No sirve decir que de momento nadie lo hace, porque alguien empezará a hacerlo y luego no hay tiempo de ponerse al día: más vale tomar la iniciativa.

Por si alguien no tiene claro por dónde empezar, caben un par de datos interesantes: los facilitados en la coctelera: datos sobre nuevos alumnos en biblioteconomía y también documentación. Lo que dejan claro estos datos no es que la empresa privada no nos conoce: incluso los potenciales alumnos no tienen interés en conocernos. Es hora de cambiar el mensaje.

Yo empezaría por buscar un eslogan: propongo "El profesional de la información: lo que andabas buscando" :-D.

¿Estaré a punto de lanzar un Meme? No acosaré a nadie: si alguien se apunta, adelante.

Sopa de bits

Categories

El significado de P y Q

En el peor de los casos

Este cálculo da garantías al conjunto de la encuesta?

La regla del tr3s

El entorno y el ambiente

Medios y herramientas

Parar, revisar, rumiar, pensar

Conclusiones

Características y elementos de las nubes de tags

Abandonarse a las estadísticas

Nubes de etiquetas con estadística robusta

Consecuencias del uso de percentiles

Conclusiones

Morfología del tag

Aplicabilidad de los tags

Vivo en la red, trabajo en mi ordenador

Etiqueta: es una orden

Sincronización e intercambio

Tags, búsquedas y reglas de filtro como documentos

Intermediación y profesionales de la información

Del árbol a la red

Los temas pendientes

Las estadísticas

Normalizar o no normalizar

Normalización como forma de consenso

Normalización matemática

Google y sus distancias

El funcionamiento de la ley de Hondt

La demo

Tabla de asignaciones

Tabla de divisiones

Gráfico de divisiones

Transferencia de datos a Open Flash Chart

Universidad y emprender

Documentalistas en el sector terciario

Necesidad y marketing