A blog about data, information and IT, by Mario Alberich

Oct 03
2007

Normalización y distancias normalizadas


Normalizar o no normalizar

Tomando el término en su sentido más etimológico, normalizar puede entenderse como "ajustar algo a una norma". Lo que es evidente del caso anterior es que tu jefe no te ha concretado la norma a seguir. Si echas un vistazo a la hoja, existen varias opciones por escoger:

- Caligrafía/Tipografía.
- Ortografía.
- Estructura textual/argumental.
- Estilo y/o Imagen corporativa.

El papel entregado no cumple nada de lo anterior: es un esquema de alguna ocurrencia que no deja de ser un conocimiento que está tratando de explicitarse. Eso no lo convierte en un mal documento, sólo que no está preparado para ser compartido.


Normalización como forma de consenso

Cada uno de los niveles de normalización anteriores trata de solucionar una posible causa de confusión. Veamos:

  • La caligrafía evita las confusiones en el proceso de lectura, al hacer más evidente la forma de las letras. Escoger una tipografía y tamaño adecuados también es importante para una correcta lectura. Esto reduce el error en el proceso de identificación visual.
  • La ortografía evita dificultades en la interpretación de los términos. Si es un ser humano quien lee el documento, es posible que encuentre la causa del error y que mentalmente lo convierta en el término adecuado. En el caso de la máquina eso es igualmente factible, pero no tan fiable.
  • La estructura textual y argumental permite identificar con más claridad el punto de partida, el conflicto y el desenlace. No tiene nada que ver con el significado del documento, sino con sus objetivos.
  • El estilo y la imagen corporativa ayudan a asociar el contenido de un documento con una marca, mensaje e incluso con el esquema de valores que trata de transmitir plasmada en éste.

De los puntos anteriores se puede desprender la conclusión que normalizar implica reducir el margen de error y aumentar la potencia del mensaje.

Lo que define la normalización es la forma como se puede estructurar un conjunto de información para que quienes entiendan "la norma" puedan entender este mensaje documentado con un riesgo mínimo de error.

Bajo estas circunstancias, normalizar equivale a consensuar la forma externa de un mensaje. Esto se consigue homogeneizando la estructura, la terminología o el estilo.

Cuanto más reducido y especializado es un entorno, más estrictos son los criterios de normalización. Ademas, se acostumbra a dar la paradoja que un documento normalizado en ese entorno tan restrictivo acostumbra a ser incomprensible para alguien ajeno a ese entorno. Por ejemplo, el código fuente de un programa acostumbra a ser incomprensible para alguien no acostumbrado a ello. Los ingenios industriales acostumbran a presentar muchos casos de esto. La jerga de un sector de actividad también tiene esas características. Los documentalistas podemos comprobarlo fácilmente: echamos un vistazo al tesauro que se corresponda, y pronto nos podemos dar cuenta de lo mucho que no conocemos.

La forma de ponerse de acuerdo en los aspectos significativos se ha centrado en la actualidad en las organizaciones como la ISO (International Standards Organization), ANSI y demás.

En la UE, se puede publicar un libro verde o green paper con la intención de exponer una serie de razones no vinculantes por las que podría estudiarse la posibilidad de definir unas normas. El proceso puede pasar por analizar las buenas prácticas de una actividad, explicitar una operativa que refleje esas buenas prácticas, y posteriormente definir la norma.


Normalización matemática

Hasta ahora he comentado la normalización en un sentido general. Aunque en las matemáticas el concepto es casi equivalente, el contexto de uso cambia un poco.

Por lo general, aquí el concepto de "norma" se puede entender como intervalo (si queremos ajustarnos a unas restricciones geométricas) o algoritmo (si la cuestión es procesar los datos para que sirvan a un determinado criterio).

Lo que en general significa normalizar dentro de las matemáticas, es procesar la información para que dos conjuntos diferentes de datos sean comparables. Eso por ejemplo sucede con los indicadores: muchos indicadores se "normalizan" para tomar valores entre 0 y 1. Muy a menudo ese valor se multiplica por 100 para obtener un porcentaje (estamos al 75% del nivel de producción), aunque esa práctica pueda ser algo dudosa.

En un proceso como el anterior, normalizar no significa "convertir los datos a la distribución normal". Esa es un uso lógico del lenguaje, pero inexacto: es por eso que yo creo que es preferible utilizar el término "estandarizar" cuando se habla de la distribución normal. Aunque ese proceso se le llame normalizar, creo que es un uso inadecuado de una palabra con un sentido más amplio. Por ejemplo, una respuesta en Yahoo! Answers sobre la normalización me parece más o menos correcta, aunque creo que normalizar implicando al teorema central del límite me parece fuera de lugar. El TCL no normaliza, ni uno normaliza utilizando el TCL: lo que sucede es que cuando se llegan a unos extremos expuestos por el TCL, existe una convergencia, fruto de la suma de variables aleatorias, que conduce el conjunto hacia una distribución normal. Es parecido pero no es idéntico.

Por lo general, la normalización se basa a un algoritmo (implantado informáticamente o no). Este algoritmo puede presentarse en forma de lenguaje natural, diagrama de flujo, código fuente de lenguaje de programación... Puede entenderse el algoritmo como una serie de reglas a seguir, independientemente de las herramientas utilizadas para aplicarlo.


Google y sus distancias

Por ejemplo el PageRank es un algoritmo de normalización, basado en tratar una gran variedad de factores que se dan en documentos de hipertexto, para finalmente dar un valor entre 0 y 10. Puntuar del 0 al 10 es algo muy sencillo de entender, aunque es un cálculo costoso.

El PR es una medida unidimensional, como gran parte de los valores normalizados con los que tratamos cotidianamente. Sin embargo, algunos valores normalizados pueden ser multidimensionales. La normalización no implica tener un número concreto, sino que los números cumplan criterios concretos.

Uno de esos casos es la distancia normalizada de google, que ya cité como una de las tareas pendientes este pasado verano.

Tanto el PageRank de Google (PRG ó GPR) como la distancia normalizada de Google (DNG ó por GND) tienen una característica especial: la medición de las distancias entre los elementos no se obtiene por el proceso secuencial de los datos, sino por las relaciones entre ellos. Por lo tanto, al estudiarse las relaciones entre ellos, se normalizan las distancias entre elementos, y no la distancia entre un elemento y los ejes de coordenadas.

Lo que sucede es que el GPR acaba extrayendo un valor "independiente" para cada elemento, mientras que la DNG se queda con las interrelaciones, que habitualmente se representan en un grafo.

Dado que el GPR ha sido ampliamente expuesto en otros artículos [fuentes], sólo cabe comentar que ambos algoritmos se basan en cálculos algebraicos, basados en vectores propios y valores propios (formas "normalizadas" de matrices).

En cambio, la visión más -llamémoslo así- holística de los datos, precisa de un tratamiento previo antes de la representación gráfica. Resumiendo mucho, la representación gráfica utiliza unos ejes de coordenadas que en sí mismos ya son una "norma", con lo que representar gràficamente las relaciones entre términos significa normalizar.

Lo que sucede con esta normalización es equivalente (que no idéntico) al cálculo que se aplica al aplicar la indexación a texto completo, calculando la densidad normalizada de una palabra dentro del documento y de la colección indexada.

Se supone que el objetivo final de la DNG es extraer conocimiento: si existen relaciones entre dos términos, ¿Pueden ser sinónimos, antónimos...? Para extraer algunas de estas conclusiones, se han utilizado herramientas como el análisis semántico latente, o la singular value decomposition (SVD) (que es el homónimo de los valores propios aplicado a matrices no cuadradas), con más o menos éxito.


Vale la pena comentar que la lectura del documento explicativo de la GND es interesante, aunque muy árida a quien no se le den bien las matemáticas. Para esos casos, recomiendo tratar de entender las explicaciones que se dan, que por lo demás tienen bastante sentido común.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.