Sopa de bits

A blog about data, information and Tech by Mario Alberich

Sopa de bits

A blog about data, information and Tech by Mario Alberich

mar. 28
2011

Los datos abiertos son el micelio de la transparencia

Hace pocos días Matthew Hurst hacía un comentario en su blog Data Mining que posteriormente fue mencionado en Barrapunto a propósito de la presentación de Open Data Cordoba:

Los datos abiertos son una parte de la transparencia. Son condición necesaria pero no suficiente.

Coincido con esta visión. Sólo se puede afirmar que datos abiertos=transparencia cuando se disponen de las herramientas, la metodología y un criterio técnico mínimo. Con esta receta es posible convertir datos abiertos en respuestas objetivas (transparencia) a preguntas concretas. Luego sólo hace falta plantear las preguntas adecuadas.

Fuentes y datos

Cada vez son más las entidades están dando a conocer la disponibilidad de sus datos en abierto , ya sea por publicidad de las entidades que aplican las ideas del proyecto aporta, o bien por iniciativas tan imprescindibles como abredatos.es.

Quizá estamos presenciando una fase de crecimiento que permita imaginar (léase soñar) en una masa crítica de fuentes y datos. Tanto unas como otros son imprescindibles para garantizar la posibilidad de contrastar, verificar y también adaptarse a las necesidades concretas.

En mi opinión, se llegará a la masa crítica en el momento que existan datos potencialmente vinculables (no sólo open, sino también linked) y posibilidad de consultas a nivel atómico, sólo recuperando una parte de la información (y no descargar necesariamente 100MB de datos, por ejemplo).

Datos abiertos públicos y privados

No sólo las administraciones públicas pueden abrir sus datos. Entidades privadas (quizá sin ánimo de lucro o participadas por organismos públicos) pueden abrir conjuntos de datos para facilitar la creación de un ecosistema alrededor de su proyecto.

Ahora suena a una idea lejana, pero ¿no es así como floreció y maduró el código abierto? ¿Por qué no los datos? Como sucede con el primero, la idea de abrir datos puede tener efectos distintos en cada caso, pero eso no lo hace descartable. Como comenta Nigel Shaboldt en la nueva revista thinkquarterly de Google:

Pregúntate: ¿Qué informaciones tienes? ¿Algunas de estas pueden ser publicadas libremente para mejorar la transparencia o mejorar la imagen de marca?

El escenario actual en relación a los datos abiertos guarda analogías con el del open source. Por un lado la escasedad aparente, los riesgos de ceder terreno a la competencia, y la (aparente) inexistencia de un contexto adecuado.

No siempre funciona, pero ha funcionado.

Transparencia también es privacidad

Sinceramente no creo que la fase linked venga de la administración pública. Sería deseable pero no lo veo factible a medio plazo (por ejemplo, por los riesgos en la privacidad derivados de seleccionar muestras muy pequeñas e identificar individuos concretos) y en la mayoría de casos incluso será innecesario.

Por ejemplo, en el caso de los datos municipales, varias administraciones pueden facilitar información. Si es posible obtener datos de varias fuentes para los municipios de una provincia (por ejemplo, a través de la codificación de municipios), ya es suficiente. Utilizando estas codificaciones ya disponemos de un valor clave para vincular, por lo que se puede dar el paso al procesado (seleccionar los datos necesarios, crear variables derivadas, etc.) y análisis (obtener las respuestas).

La convivencia entre transparencia y privacidad es la garantía de subsistencia de los datos abiertos. Todo aquello que enturbie esta convivencia (llámese cotilleo, vigilancia o como se quiera) es mejor que se quede al margen.

Generar el micelio

Buscando la imagen que más se ajusta al camino que queda por recorrer, pienso en el micelio.

Su forma, su existencia (principalmente en el subsuelo) y su ubicuidad lo asemejan a la existencia de datos. Estos datos, que hasta hace poco eran difíciles de obtener, están empezando a aparecer (sí, como setas). En gran parte por nuestra actividad a través de dispositivos electrónicos e Internet, pero también por los datos abiertos.

Su existencia altera el contenido del substrato para crear relaciones simbióticas con (y a veces incluso preparar el terreno para) vegetales superiores. Su capacidad para aparecer en los lugares más inhóspitos (porque los datos crecen en todas partes donde alguien quiera buscarlos) no tiene igual. Y por si fuera poco, evitan la erosión del suelo fértil donde se desarrolla.

Esas son las características deseables para los datos abiertos. Pero quizá para explicar esto, lo mejor sea un vídeo de TED: seis maneras en que los hongos pueden salvar al mundo.

En especial me llamó la atención el fragmento de los minutos 8:00-9:35, pero el video en conjunto es muy recomendable: Paul Stamet impregna con pasión todas las revelaciones del vídeo.

mar. 17
2011

The net delusion (Evgeny Morozov)

De los días posteriores al 11-M, una de las cosas que recuerdo es que Internet y los SMS jugaron un papel decisivo. Mientras que en España se mantenía una versión oficial, fuentes externas desvelaron que la situación no apuntaba hacia allí; algo pasaba. Y algo pasó.

Decir que Internet ha proporcionado cosas buenas es evidenciar lo vivido. La comunicación con amigos o familiares lejanos, conocer las noticias por varias fuentes, en tiempo real y sin intermediaciones...

Pero esta evolución no sólo (o no siempre) tiene efectos positivos.

Aunque estoy encantado con este medio, estoy más cercano al creyente poco convencido. Así que cuando tuve conocimiento de este libro (323pp., por ahora sólo en inglés) me decidí a leerlo. Os traslado algunas pinceladas de lo que más me ha atraído, y recomiendo su lectura, al menos por su disonancia respecto al mensaje predominante.

Un punto de vista diferente

Desde las primeras páginas queda muy clara su postura: Internet está llena de ciberutópicos (o ciberutopistas), el autor no es uno de ellos y va a dejar claro el por qué. Aunque pone algunos ejemplos de situaciones vividas en países democráticos, el trabajo se centra en el papel de Internet, la tecnología y los gadgets en regímenes represivos o con con limitada libertad de expresión. Las críticas que transmite se pueden ampliar a toda nuestra actividad en la red, pero se focaliza en esos casos más peliagudos.

Entre los primeros pasos que da el libro, una de ellas es marcar una distancia entre lo que considera el referente equivocado que se está aplicando sobre Internet como herramienta de apertura democrática: la caída del muro de Berlín y el rol de los Samizdat o de Radio Free Europe.

En un esquema que repetirá con otros estereotipos, Morozov desmonta la falsa idea que los Samizdat ayudaron a la caída del muro. Expone que en algunos casos la llegada de la cultura occidental más bien ayudó a mantener el régimen durante los últimos años. Cita por ejemplo el caso de la señal de televisión que llegaba desde la RFA: Realizaron estudios de satisfacción (lo digo así para que se entienda) sobre la población y comprobaron que la crítica hacia el régimen se acentuaba... cuanto menor era la intensidad de la señal de la TV occidental.

¿Por qué? Pues simplemente porque la gente estaba entretenida mirando los concursos y los shows, se evadían de su rutina diaria y seguían con su vida. El gobierno de Honnecker, a sabiendas de esta situación, decidió no hacer nada. Hasta el momento en que, debido al previsible colapso de la URSS, todo cambió rápidamente.

Al aplicar la idea de los samizdat a Internet se comete un error grave: no todos los regímenes totalitarios tienen las mismas fortalezas y debilidades. El bloque del este era un aparato relativamente más homogéneo en cuanto a estructuras de poder, medios y cultura. Utilizar las mismas herramientas para un mundo tan heterogéneo como el actual tiene poco sentido y muchos peligros, porque no está claro si la introducción de Internet refuerza más a los disidentes o al poder que oprime.

Los malos también aprenden

Quizá en los inicios de Internet se podría pensar que las dictaduras y otros regímenes totalitarios no entenderían el nuevo canal. Quizás sí. Pero ese tiempo ya pasó.

Aplicar los criterios de privacidad de Facebook a Twitter en un país democrático puede provocar situaciones comprometidas, pero... ¿y si se aplica en un país en los que existe un riesgo físico para los disidentes?

Los gobiernos han aprendido a integrar Internet como a herramienta complementaria en sus tres estrategias de control sobre la información: censura, propaganda y vigilancia [surveillance]. La herramienta de la libertad se convierte en represión.

Internet ha potenciado las tres estrategias, pero la última es la más delicada: si tú puedes seguir una cuenta de twitter que te cuenta desde un país determinado lo que está ocurriendo, ¿por qué no lo va a seguir alguien implicado en contra? Si eso sucede, ¿Qué opciones tiene un disidente para garantizar su integridad y la de su entorno?

Es la situación que pueden vivir disidentes que utilizan las redes para transmitir las novedades. ¿Tú les lees? Ellos también.

Para rematar lo anterior, Facebook, Twitter y Google no siempre han ofrecido un mensaje claro respecto a su connivencia/implicación/rechazo en estos contextos. La administración americana (Obama incluido) es foco de críticas por su ambivalencia y por la, siempre según su opinión, poca visión de las consecuencias.

Carga también sobre la afirmación de La próxima revolución empezará en Twitter. Dejando de lado que el único éxito que ha conseguido esta frase es la campaña de marketing gratuita que se ha hecho sobre el servicio del pajarito, Morozov carga contra los ilusos que piensan así.

¿Creen realmente que por unas páginas en Facebook con muchos fans y otros cuantos tweets, el regimen saldrá a la puerta y dirá "tenéis razón, os dejamos el país en vuestras manos"?.

No parece que Morozov cambie de opinión al ver lo que ha pasado últimamente en el norte de áfrica (y que coincide al menos en parte con lo que comentaba mismo Julian Assange ayer en Cambridge). Sí que hay algo que advertí mientras seguía las noticias: que el uso de las redes sociales fue intenso, pero que lo que finalmente movió los engranajes para provocar una situación crítica en Egipto fueron las huelgas de trabajadores.

Organizados o no, convocaron huelgas que (probablemente) provocaron más escasez de la que había y/o disturbios, que acabaron desembocando en lo que hemos vivido últimamente.

La dispersión no levanta revoluciones

En la RDA de 1989 los canales de TV/Radio eran muy escasos, pero actualmente es casi imposible conseguir cuotas de atención suficientes a través de un solo canal que sirva para articular un mensaje unívoco. La dispersión de canales genera más atención, pero dispersa la capacidad de acción.

La cuestión es que Internet se ha demostrado, por lo general, como un mal canal para iniciar revoluciones. No se trata de seguir ni recopilar información sobre. Se trata de hacer la revolución. Y para hacer la revolución es necesario focalizar.

Internet puede ser un excelente canal para la coordinación, pero no está pensado específicamente para ello. Es necesario entenderlo más a fondo para que sirva a los objetivos de acciones organizadas.

Conclusiones y valoraciones

Dejando a un lado todo lo comentado, el libro sólo me ha presentado una decepción: la falta de contrapropuestas más estructuradas y articuladas. En este aspecto el libro me ha dejado en ascuas.

Ahora bien, es cierto que para exponer un punto de vista tan diferente es necesario dedicarle espacio. Sus argumentaciones se basan en una buena cantidad de fuentes, que van desde estudios de población, discursos políticos, informes de organizaciones de defensa de los derechos humanos, etc.

Quizá otras propuestas más claras llegarán con una segunda obra, quién sabe.

ene. 12
2010

Visualizando: Estadísticas de navegadores (III)

Comparando los gráficos

Dejando a un lado los criterios estéticos (ajustando todos los anillos para cerrar la circunferencia, por ejemplo), hay algunos cambios significativos entre el original y la nueva versión:

Algunos navegadores (sus versiones) se han unificado. En concreto, las versiones de Opera. Se podría haber hecho lo mismo con Netscape 3 y 4 (NS3 / NS4), pero la similitud de colores lo hace innecesario.
Ahora sabemos que el tiempo transcurrido entre los límites de dos anillos son dos meses.
Los navegadores se han ordenado con un criterio específico que trata de transmitir un mensaje.

Mensaje 1: Guerra y evolución de los navegadores

Aunque el gráfico empieza en el 2002, es posible ver la agonía de Netscape, y su disgregación (Mozilla, AOL y versiones varias de NS). Por ejemplo, vemos el navegador AOL (pequeña franja naranja claro que se extingue en noviembre-diciembre de 2002) y comprobamos que casi "enlaza" con IE5. Por lo pronto, eso quiere decir que los navegadores situados "a su derecha" no aprovechan su extinción. Tampoco lo hace IE5. Pero si revisamos los porcentajes de IE6, vemos que prácticamente asume toda su cuota.

¿Casualidad? Según la Wikipedia, en 2003 AOL firma un contrato para para utilizar el layout Engine de Internet Explorer. Si esto tiene una relación directa con la desaparición "de facto" de este navegador (o al menos de su firma identificativa), ya es algo a contrastar.

Pero sigamos con Netscape. Precisamente AOL (propietaria de Netscape) dejó de acompañar a Mozilla Organization en Julio de 2003 (¿habrá relación entre esto y el acuerdo con Internet Explorer?). En esos momentos se creó la Mozilla Foundation, que ya llevaba trabajando en una versión preliminar de su navegador Mozilla (primero Phoenix, luego Firebird, y desde enero de 2004, Firefox). Es interesante ver que, a partir de ese momento, la franja marrón empieza a crecer, para ser finalmente absorbida por la franja naranja. Mientras Netscape da coletazos agónicos (que acaban en Marzo de 2008), y la versión 6 de Internet Explorer es líder indiscutible de la parte derecha del gráfico, algo va creciendo por el flanco izquierdo.

Y mientras eso sucede, Internet Explorer 7 intenta cerrar el espacio a Internet Explorer 6, incluso cuando ha llegado la versión 8 (que ya no sale en el gráfico). Quizá en este esfuerzo exista una clave del por qué del crecimiento de navegadores alternativos.

Mensaje 2: Los navegadores estables

Es el caso de Opera. La guerra de los navegadores no parece que vaya con él. Mantiene su cuota de mercado o crece lentamente, sin angustias. Vale decir que la visión de Opera va más allá de los PCs, ya que se encuentra muy extendido en móviles, consolas (como a Wii) y otros dispositivos similares.

Lo mismo sucede con Safari. Es ligero y ágil, su ecosistema es muy concreto (MacOS, aunque ahora exista versión para Windows) y dispone de un público fiel. Ambos van a su ritmo, sin altibajos.

Mensaje 3: los nuevos participantes

Chrome aparece sólo en los últimos anillos del gráfico (parte superior, color verde) pero entra con fuerza. La marca que lo abraza y el destino que le están preparando facilitan la entrada al mercado.

El gráfico en este sentido es ambiguo. Observando el anillo externo, parece que Firefox gana terreno, pero vemos que es porque Chrome le muerde un trozo de la tarta. Si se puede decir que alguien está avanzando en cuota de mercado, no es estrictamente Firefox, sino los navegadores alternativos. a Internet Explorer Habrá que ver a lo largo del próximo año si Internet Explorer recupera terreno. De momento parece que lo pierde, y rápido.

Diagnóstico del gráfico

Comentaré brevemente los puntos a favor y en contra que le veo al gráfico.

A favor:

La superposición de información ayuda a explicar una historia, representar un ritmo (crecimiento de usuarios) y a transmitir un mensaje.
El gráfico es estático pero la información que muestra es muy dinámica. Es fácil entretenerse siguiendo las franjas de color y comprobar las evoluciones.
Al reorganizar los navegadores siguiendo criterios objetivos (motor DOM o javascript, empresa responsable, variación de la cuota de mercado, etc.) podemos establecer itinerarios que apoyen un argumento.
El uso de Axiis ha sido una experiencia muy gratificante, aunque los retoques han sido muy limitados. Ofrece garantías para añadir interactividad y otras combinaciones de gráficos en el futuro. Es un proyecto a seguir de cerca, como su proyecto base: [Degrafa].

En contra:

Los porcentajes de cada navegador son globales, pero los anillos son proporcionales. Es decir, que los arcos de cada anillo reflejan el estado actual. Al añadir un anillo tras de otro, la sensación de dominio puede ser errónea. Eso es lo que pasa con Internet Explorer (6 y 7): el azul predomina, pero su cuota de mercado es menos cómoda de lo que parece. Eso sí, nos da perspectiva de su gran dominio, igual que nos da perspectiva en la evolución de los navegadores Netscape/Mozilla. Esto se podría corregir tratando los datos de proporciones de acuerdo con los datos históricos (priorizando el área total en detrimento del área de cada anillo), pero entonces ya hablaríamos de otro gráfico.
Los datos no son 100% fiables, y parten de fuentes distintas con objetivos diversos. No voy a insistir más en esto.
Aunque no sea realmente crítico, se han "retocado" los porcentajes de cada anillo para cerrar el círculo. En la línea de lo anterior, es una licencia que me tomo con fines puramente estéticos, aunque facilita la lectura del gráfico.
Al mezclar dos tipos de datos tan diferentes (navegadores y crecimiento de usuarios) es importante no llegar a conclusiones del tipo "los nuevos usuarios de Internet prefieren cada vez más Firefox". Probablemente eso sea falso. Es más, los nuevos usuarios acostumbran a escoger el navegador por defecto, y son los más experimentados quienes prueban alternativas. Quizá lo que esté pasando es que el cambio de navegador cada vez tarda menos (la velocidad de cambio) pero nada más.
El gráfico sólo contempla una evolución "creciente". Si en algún momento Internet sufriera un descenso de usuarios, este gráfico sería inútil: tendríamos que dibujar anillos superpuestos. Aunque se puede abordar (con texturas), su interacción se vería perjudicada.

Aplicaciones y conclusiones

En general, el único condicionante real es el penúltimo punto en contra (el decrecimiento). El resto son criterios de representación y fuentes de información. Por lo tanto, es posible aplicar este gráfico en contextos de evolución o crecimiento. Los escenarios que contemplen decrecimiento precisarán una adaptación.

Un posible uso del gráfico puede ser el seguimiento de un servicio de atención al cliente, o simplemente de trazabilidad de un servicio en general. Por ejemplo, en entornos de desarrollo puede ser interesante mostrar los tipos de actuaciones según su tipo. Aparecerían acciones como programar nuevas funcionalidades de una aplicación, mejorar las existentes, corrección de errores, reuniones con el cliente...

Cada anillo puede representar una entrega o versión de la aplicación con su fecha correspondiente (o el número de horas dedicado). Y probablemente con este sistema se detectarían esos límites de crecimiento de las aplicaciones que requieren de un parón y refactorización.

Sobre el gráfico en sí extraigo una conclusión. Al centrarnos en un mensaje visual, nos vemos obligados a obviar una serie de datos o características que describen mejor el conjunto. En este caso, hay que optar entre una lectura radial (como en los clásicos gráficos de sectores) o una de conjunto, y siempre tener en cuenta esta decisión en el momento de interpretar el gráfico. Si vamos a presentar este gráfico a alguien que desconoce su origen, vale la pena matizar su explicación con texto o bien con otro gràfico complementario.

Sólo me queda felicitar a Michael Van Daniker por su excelente trabajo, tanto por ejemplo de este gráfico como por la propia biblioteca Axiis.

ene. 11
2010

Visualizando: Estadísticas de navegadores (II)

La primera parte es relativamente sencilla, teniendo el archivo XML generado en la hoja de cálculo. Sólo hay que tener en cuenta de no olvidarse de los tags ... que engloban todo el contenido. Pasamos al segundo paso.

Modificación del código

Para adaptar los anillos hay que ir a las líneas 148-149, donde se definen las variables innerRadius y outerRadius. Aquí se define el valor del límite interno y externo de cada anillo.

En la versión original estos radios son constantes. Pero ahora lo que hay que hacer es utilizar los atributos innerRadius y outerRadius generados en el archivo XML. Los valores aquí ya tienen que ser absolutos, por lo que hemos de multiplicar los radios normalizados a 1 por el radio total del gráfico. Las líneas deben contener lo siguiente:

innerRadius="{radialLayout.currentDatum.innerRadius*radialLayout.height/2}"
outerRadius="{radialLayout.currentDatum.outerRadius*radialLayout.height/2}"

Describo brevemente los parámetros de las fórmulas:

Estamos recogiendo el valor de innerRadius (u outerRadius en la segunda) y los estamos multiplicando por la mitad de la altura de la caja donde se mostrará el gráfico. Dado que el gráfico está centrado, dividimos la altura entre dos para conseguir el mayor radio posible. La altura total es el diámetro, por lo que su mitad es el radio.
Luego, dado que innerRadius y outerRadius en el XML son valores entre 0 y 1 (el innerRadius del anillo más interior es 0 y el outerRadius del anillo más exterior es 1) y son contiguos, los anillos toman su máxima medida posible para la caja del gráfico (radialLayout).

Aparte de estos cambios, he comentado las líneas 178-180 (etiqueta "January 2002" que aparecía en la parte central) y las líneas 121 a 123 (la etiqueta "August 2009", que aparecía en la parte exterior). Hay que tener en cuenta que el modo de comentario es XML, no ActionScript.

Compilación

Ya sólo queda generar el archivo SWF. Para ello es necesario que descargar Flex SDK (gratuito, precisa Java), instalarlo (se descomprime en un directorio, sin más) y compilar. Abriendo una consola y situándote en el directorio "src" del ejemplo, pues compilar (en Linux) así:

/ruta/hasta/flex/bin/mxmlc BrowserMarketShare.mxml -include-libraries ../libs/DegrafaLibrary.swc ../libs/AxiisLibrary.swc

Compilando en Windows, el programa es mxmlc.exe, y las rutas a los directorios se indican con contrabarra (\).

Aparecerán algunos avisos pero todo funciona correctamente. La última línea del proceso será algo así como:

/home/_usuario_/..../axiis examples/src/BrowserMarketShare.swf (568757 bytes)

Puedes abrir el archivo SWF en tu navegador y verás algo parecido a la siguiente imagen:

¿Todo bien? ¿Algo no ha funcionado? Si dejas algún comentario quizá lo aclaremos. Clicando con el botón derecho en la versión de pantalla completa puedes ver el código del archivo MXML.

Queda un último apartado para comentar los resultados del gráfico, compararlo con el original, analizar qué podemos extraer de él, y valorar las ventajas e inconvenientes por los criterios que he seguido.

ene. 9
2010

Visualizando: Estadísticas de navegadores (I)

El origen: Browser Market Share

Michael Van Daniker publicaba en su blog un gráfico sobre las estadísticas de navegadores como ejemplo de utilización de Axiis. El gráfico me despertó el interés por su enfoque novedoso y por su combinación entre los conceptos de proporciones y serie temporal.

Observando el gráfico, se puede encontrar una analogía con los anillos de un tronco de árbol. Los datos que muestra se refieren a las estadísticas de navegadores de w3schools.com (W3S) desde Enero de 2002 hasta finales del 2009. Empezando desde el centro, cada anillo representa el porcentaje de un intervalo de tiempo determinado. Navegando por la versión Flash se puede ver el mes/año, el navegador de cada arco y su porcentaje de penetración.

Sin embargo, hay una serie de cuestiones que me interesaron en aras a mejorar el resultado final:

El gráfico se muestra "abierto", ya que las estadísticas de W3S no suman el 100% (los navegadores con un uso por debajo del 0,5% quedan fuera).
Los periodos de cada anillo no son rítmicos: En el 2002 pueden ser trimestrales o semestrales, mientras que en el 2009 los datos son mensuales.
Los anillos tienen un tamaño idéntico, lo cual no representa de forma fidedigna el crecimiento de los usuarios de Internet.

A partir de estas observaciones, he definido una serie de criterios:

"Cerrar" el círculo, aunque sean recalculando los porcentajes existentes.
Aplicar tamaños de cada anillo proporcionales al crecimiento de usuarios de internet a lo largo de ese periodo.
Establecer un ritmo fijo en los intervalos de tiempo, estimando el crecimiento de usuarios si faltan datos. De este modo, cada línea se refiere a un ciclo de tiempo fijo, y su anchura representa el incremento de usuarios.

Las fuentes de datos

Antes de entrar en los detalles sobre los datos, tengo que decir que mi objetivo principal no ha sido encontrar la serie más fiable desde 2002 hasta la actualidad. Actualmente es posible encontrar algunas fuentes con datos mensuales bastante fiables, pero muchas no se extienden hasta ocho años atrás.

Los datos de W3S no incluyen el volumen (ni real ni estimado) de usuarios conectados a Internet. Por lo tanto, hay que buscar fuentes complementarias. Sin entrar en criterios estrictos de veracidad ni fiabilidad, he seleccionado la fuente Internet Growth Statistics del Internet World Stats. Para el objetivo que me ocupa, es suficiente.

Como se puede comprobar en el enlace, los datos distan de ser concretos. Para acabar de arreglarlo, las series de datos no concuerdan con las del W3S. En este punto tenemos dos opciones: seguir buscando, o echar mano de la hoja de cálculo y algunas fórmulas matemáticas. Opto por la segunda.

Unificación de las series de datos

Esta fase es quizá la más larga (y seguro que la más ardua) de todo el proceso. Importar los datos, eliminar el formato, convertir el texto en información tratable... Todo lo que no esté en una fuente estructurada requiere ese peaje.

Una vez organizados los datos, queda unificar las series. ¿Cómo podemos llevarlo a cabo? Por interpolación. La ventaja es que es un proceso relativamente sencillo, y el inconveniente es que sacrificamos algunos datos (pocos) de la serie.

En este caso he escogido la interpolación lineal. Muy probablemente no sea la mejor (¿lo será la cúbica?): en este caso es útil y suficiente.

Para realizar interpolación entre fechas, éstas se convierten en valores numéricos (por ejemplo, días transcurridos desde el 1/1/1970). Otros dos detalles que considero son:

Asumo que las estadísticas de "Marzo de 2005" se refieren a los datos "hasta el 31/5/2005". Es lo habitual pero no se especifica en la fuente.
Decido que la serie sea bimensual. Podría ser trimestral o semestral, pero lo hago para aprovechar más los datos (y no echar de menos los sacrificados).

Dado que la interpolación requiere una fecha anterior y otra posterior a la intermedia que queremos calcular, pierdo al menos dos datos de la serie: el primero y el último. La alternativa a esto es empezar justo en la misma fecha que empieza la serie. Obteniendo la distancia entre los dos puntos puedo calcular la parte proporcional (suponiendo incremento constante = lineal) del crecimiento de usuarios. Por lo tanto, para cada fecha concreta de mi serie unificada, tengo el número estimado de crecimiento de usuarios.

Para obtener esta diferencia, sacrifico otro dato del inicio de la serie. (ya van tres) Al precisar la diferencia respecto al anterior, el primero (que se supone que no tiene anterior) se cae de la lista.

Podría solucionar este detalle utilizando la cifra absoluta (el número de usuarios al iniciar ese periodo) para dibujar el círculo más interior del gráfico,. Sin embargo, lo descarto porque eso supone perder un espacio considerable. Se puede comprobar que el primer círculo sería proporcional a unos 500 millones de usuarios, mientras que el resto de anillos tienen un crecimiento mucho inferior (una décima parte en los mejores casos).

Cálculo del tamaño de los anillos

El siguiente paso es decidir qué proporción sigue el radio del anillo. Existían dos opciones:

Radio proporcional al crecimiento: El radio se calcula de forma directamente propocional al crecimiento de usuarios (un usuario aumenta el mismo radio tanto en los anillos interiores como en los más exteriores). El radio total del gráfico es equivalente al total de usuarios, y el radio de cada anillo se corresponde con la proporción de nuevos usuarios de cada periodo.
área proporcional a crecimiento: el radio se calcula teniendo en cuenta que el incremento de usuarios es proporcional al área del anillo.

¿Qué diferencia hay? Visualmente, mucha. Basándonos sólo en el radio, tenemos un gráfico bastante representativo si miramos por evolución (centro->exterior), pero sesgado como conjunto (visión del tronco). 10 píxeles de radio en el segundo anillo inferior ocupan mucha menos área que 10 píxeles en el anillo más externo. Por lo tanto, el color del primer anillo ocupa mucho más espacio visual del que su volumen de usuarios representa.

Hay otra razón para escoger el criterio de la proporción por área: representar el crecimiento actual en relación al pasado. Esto es algo interesante porque el grueso del tronco nos muestra la velocidad de crecimiento. Si este mismo gráfico se realizara con barras o columnas relativas (ocupando una misma altura, ajustando la anchura al crecimiento de usuarios, y repartiendo el área proporcionalmente), el efecto visual de las columnas "anchas" sería mucho más acusado.

En cambio, al repartirse por un área concéntrica que aumenta de radio, lo visualmente constante (anillos de un mismo grueso) es el crecimiento respecto al anillo anterior, que no el crecimiento en sí. Por ejemplo, revisando los datos se puede comprobar que los anillos interiores crecen a un ritmo de 15-20 millones de usuarios, a pesar que se ven gruesos. En cambio, los anillos más exteriores, que parecen normalitos están creciendo a un ritmo de 40 millones de usuarios. Esto quiere decir que requiere más esfuerzo aumentar el radio en cada anillo más exterior. Es un comportamiento habitual, por ejemplo, al analizar las tasas de crecimiento de las empresas. Y es algo directamente relacionado con la viralidad de este medio (el efecto red una teoría algo criticada).

La pregunta es: ¿Se está engañando? No: se está centrando el mensaje en la tasa de crecimiento. Volviendo a la analogía de los anillos del árbol, podemos suponer que el tronco parezca mantener un crecimiento gradual. Pero lo que está sucediendo es que el tronco crece proporcionalmente un poco más rápido... ocupando el mínimo espacio posible. En el gráfico sucede lo mismo: si utilizáramos barras, el espacio de representación sería mucho mayor y quitaría importancia a los primeros datos de la serie.

Como efecto derivado, en este gráfico podemos ver el efecto de la "viralidad" de los navegadores. Siguiendo la analogía del tronco, el gráfico muestra el cambio de nutrientes del substrato que es el mercado de los navegadores.

El cálculo

Para acabar esta primera parte, comento las ideas esenciales para el cálculo de los radios. Para empezar, tenemos lo siguiente:

El espacio en el que se va a mostrar el gráfico varía según el tamaño de pantalla que tengas, por lo que debemos calcular los radios de los anillos en cantidades relativas (tanto por uno, o porcentajes).
Hay que establecer una relación directa entre el total de usuarios de cada anillo, y el área del propio anillo. Es decir, que esté donde esté, un nuevo usuario ocupa los mismos píxeles de superficie.
Hay que tener en cuenta un radio inicial para el primer anillo (el nudo central). En mi caso supondré que es 0 (el primer dato empieza en el centro del tronco).

Lo que hago es considerar el área completa del anillo, que se corresponde con los 1.146 millones de usuarios de crecimiento entre Enero de 2002 hasta Julio de 2009 (datos ya interpolados). Lo primero que hago es dividir el incremento de cada periodo por este total. Con ello tengo un valor proporcional al área de cada anillo (si el gráfico ocupara un área de 1 unidad). Es decir, obtengo la proporción de área por usuario que le correspondería a cada anillo.

Ahora debo deducir el radio para que el círculo ocupe este área. Para ello, tengo que invertir la fórmula del área del círculo: A = π·r². Pero ojo, tengo que restar siempre el área de los anillos interiores. Por lo tanto, calculo los radios de dentro hacia a fuera.

Para saber el radio del nuevo anillo debo:

Calcular el àrea de todos los anillos interiores (sumo los radios interiores y calculo el área del círculo correspondiente).

Luego resuelvo el cálculo:

r = sqrt(a+A), donde:

sqrt(a+A) es la raíz cuadrada de (a+A).
r = radio absoluto (distancia desde el centro hasta la parte exterior de este anillo).
a = área que debe ocupar el anillo.
A = área de los anillos inferiores.

Una vez obtengo r, le resto los radios de los anillos interiores y ya tengo el ancho (radio relativo al anillo). Se podría tratar el gráfico directamente con los radios absolutos, pero requeriría empezar a dibujar desde fuera hacia dentro y por lo tanto invertir la serie. Mi opción es no retocar la serie, para no manipular la hoja de cálculo más de lo necesario.

Dado que hemos supuesto que el área del círculo es 1, la suma de los radios no equivaldrá a uno (en realidad es de unos 0,564...). Esto es correcto: lo podemos comprobar calculando el área del círculo con radio 0,564... y nos dará como resultado 1.

Y finalmente, el último paso: debemos estirar los radios para que el total sea 1. ¿Por qué? Pues para poder calcular con más facilidad los radios del gráfico en la pantalla. Esto es sencillo: basta dividir cada fragmento de radio por 0,564..., y ya tenemos los radios proporcionados a 1. Lo que estoy haciendo aquí no es más que normalizar: ajustar una serie de valores a una medida global concreta. (la norma) Es importante no confundir con estandarizar (convertir un valor de una distribución normal a la normal estándar de media 0 y desviación 1).

Con este cálculo y algunas manipulaciones de texto en la hoja de cálculo, ya tenemos un archivo XML similar al original. Sólo he añadido los valores del radio interno (la suma de radios interiores) y externo (interiores + radio del anillo). También muestro en la etiqueta de cada sector (navegador del periodo concreto) el número total de usuarios que aumentan en cada anillo, para que sea más fácil comprobar las diferencias entre las cifras y el efecto visual.

El siguiente paso es modificar el código del ejemplo original (para adaptar los radios y cambiar algunas etiquetas) y ya podremos compilar. En el siguiente artículo comento las modificaciones y el resultado.

oct. 17
2009

Visualización de datos: Una aproximación ingénua

La razón de ser de la visualización de datos es muy representativa (valga la redundancia) de la época actual. Tenemos infinidad de datos que necesitamos procesar, y necesitamos indicadores y técnicas para resumirlos. Sin embargo, por ahora disponemos de pocas herramientas que sean útiles y estables para estos objetivos.

Ante esta aparente falta de herramientas, mi opción es adoptar una postura ingenua y buscar referentes que me ayuden a determinar los aspectos clave.

Buscando referentes

Diagnóstico por la imagen

Por cuestiones que no vienen al caso he tenido la oportunidad de entender de cerca cómo funcionan los sistemas de diagnósticos por la imagen en sanidad. Las técnicas de de diagnóstico por la imagen (con términos relacionados como radiografía, ecografía, contraste, TAC, PET, etc.) y su considerable cantidad de parámetros es una herramienta poco invasiva (salvo por la radiación, obviamente). Comparémoslo con la alternativa: abrir al paciente o extraer una biopsia es algo mucho más desagradable (y doloroso).

Desde un punto de vista ingenuo, sorprende ver cómo al primer vistazo un profesional puede detectar los factores clave del diagnóstico. Pero adentrándose en los aspectos técnicos, sorprende entender la cantidad de parámetros posibles (técnicos y humanos) que pueden afectar para que una imagen permita las garantías básicas del diagnóstico. Por resumirlo en una frase: la clave está en combinar la focalización en los detalles sin pérdida de contexto.

Para resaltar estos detalles, la clave está en la posición del cuerpo del paciente, la potencia de la radiación emitida (los huesos de la cabeza necesitan más radiación porque son mucho más densos que, por ejemplo, el tórax), el ángulo del disparo (el encuadre de la imagen, por llamarlo así), e incluso la posibilidad que el paciente tenga los pulmones llenos de aire. Pura técnica de muestreo.

Un cambio en los parámetros altera el resultado final, con lo que se obtiene una imagen borrosa, oscura o demasiado clara. Dado que sus fines no son estéticos sino de salud, la nitidez del órgano o fragmento a radiografiar son claves para el diagnóstico.

Representación, visualización e interacción

El término clásico de representación gráfica de datos constituye el puente entre la emisión de datos y la representación visual. Ese camino representa un gran paso para aquellas personas ajenas a las cifras. Nuestra capacidad de representar mentalmente los datos para extraer información varía fuertemente dependiendo de los conocimientos previos y la experiencia.

Sin embargo, la representación gráfica clásica se concentra en unos pocos parámetros. Con este límite, es relativamente fácil representar datos, ya que se puede utilizar formas geométricas simples, espacios delimitados, colores concretos, y cifras fijadas. Dada la tradicional escasez de datos, esta relación entre complejidad y resultados es más que suficiente. De hecho, va bien que sea así: cuanto más simple, mejor.

Lo que sucede actualmente es que tenemos muy a mano gran cantidad de datos. Por si fuera poco, el nivel de interrelación entre conjuntos de datos ha aumentado mucho: antes conseguir estas características era difícil, especialmente por el coste asociado al muestreo. Ahora es una cuestión casi de rutina.

Con el aumento del volumen de los datos llegan varias consecuencias:

Es necesario realizar tareas de depuración y "limpieza" de estos datos. Esta tarea es mucho más cercana a las labores de restauración (eliminar las impurezas), que al del lavado de un coche. Una limpieza con criterios erróneos conduce al sesgo de los datos y por ello a conclusiones equivocadas.
Los conjuntos de datos pueden implicar varios niveles de información. Podemos tratar una muestra primaria, y relacionar este subconjunto de datos con otros datos secundarios. Por ejemplo: podemos tratar el nivel de ventas de un producto en varias zonas geográficas, y en un segundo nivel podemos analizar factores sociodemogràficos de cada zona como la natalidad, niveles de estudios, distribución de riqueza, etc.
Es necesario reinventar la forma de representar estos datos, ya que la linealidad de las representaciones gráficas clásicas ya no son tan útiles para transferir ideas. Esto depende también del público al que se dirige, sus conocimientos, circunstancias, o motivaciones. La representación de los datos debe reflejar los estratos de la relevancia.
La disponibilidad casi en tiempo real de algunos datos permite pensar en representaciones visuales actualizables, que evolucionan cambiando de color, tamaño u otros efectos. Estas alteraciones reflejarían cambios cualitativos que afectan al equilibrio del conjunto.
Un usuario capacitado puede extraer más conclusiones si tiene la posibilidad de modificar perspectivas, filtrar ciertos datos y establecer un "camino" en la representación. Ese camino transcurre desde sus dudas hasta las conclusiones.

Los aspectos interesantes, bajo mi punto de vista, radican en la posibilidad de establecer sistemas más personalizables de visualización de datos, organizados en niveles de representación, y combinados con la posibilidad que el usuario interactúe, con el objetivo de agruparlos, disgregarlos, relacionarlos, etc.

Creo que estos tres niveles (visualización, organización e interacción) corren paralelos a los niveles de información (datos, información y conocimiento). Los datos con un buen nivel de interacción y personalización podrían transmitir un mensaje adecuado para el receptor (por contraposición a un mensaje predefinido por el emisor), que mejora la transferencia de ideas.

Qué podemos extraer de la visualización de datos

Menor tiempo (y procesos intermedios) entre generación de datos y toma de decisiones.
Disponibilidad de un solo entorno para los distintos niveles de decisión.
Capacidad para extraer y representar subgrupos de información mediante una interacción visual, descartando en gran parte las consultas textuales.
Vinculación de recursos adicionales (archivos audiovisuales, comentarios de los usuarios, etc.).
La forma de interacción puede ser similar al de una Wiki, en la que los comentarios de los usuarios pueden ayudar a extraer el conocimiento.
Integración de estos datos con entornos virtuales/simulados de una organización. Es decir, un sistema de realidad aumentada que conecte los datos con el entorno real en el que se generan (por ejemplo en una planta de producción).
Cerrar el ciclo: analizar las interacciones de los usuarios con la visualización, para explicitar el proceso de toma de decisiones, la detección de comunidades y el filtrado.
Selección y agrupación de estos datos, informaciones y documentos para la generación de informes estructurados, que puedan servir para la difusión externa (publicidad, informes, resúmenes) o interna (formación de empleados, comunicación interna, etc.).

jun. 5
2009

Sobre las Elecciones Europeas y la decisión de voto

Entre los tipos de votos hay que diferenciar a dos niveles: los que cuentan (de algún modo), y los que no cuentan en la determinación de escaños..

En la primera categoría encontramos el voto a partidos políticos y el voto en blanco.
En la segunda tenemos los votos nulos y la abstención (considero también el no-voto como una decisión, dado que afecta al proceso).

Resumiendo sus consecuencias:

El voto nulo o la abstención son decisiones que no afectan al reparto de escaños ni al umbral de votos mínimos, por lo que no condicionan la representación política. La diferencia principal es que el voto nulo consta en las actas de las mesas electorales, mientras que la abstención sólo consta al comparar estas actas con el censo.

En lo relativo al voto a partidos o en blanco, estos tipos votos son considerados votos válidos. Este detalle es incide, como se comentará más adelante, sobre el umbral mínimo de votos para el reparto de escaños. Cabe comentar que, según la Legislación Electoral para las Elecciones Europeas (apartado de España), los partidos reciben una subvención de 3 millones de pesetas (Unos 18030 Euros) por escaño, y 100 pesetas (60 céntimos de euro) por voto recibido.

El proceso de recuento de votos: la secuencia

Para comprender el reparto de escaños más a fondo, se puede representar el proceso de votación mediante una pequeña secuencia:

Votación: el elector tiene cuatro opciones principales:
- Voto a un partido.
- Voto en blanco.
- Voto nulo.
- Abstención

Contabilización de votos:
- Se contabilizan los votos que hay dentro de la urna. Implícitamente se descarta la abstención, por lo que los votos que pasan a la siguiente fase son los votos a un partido, los votos en blanco y los votos nulos.
- Una vez contabilizados, se descartan los votos nulos para el siguiente proceso.

Unificación de las actas de los colegios electorales:
- Se suman los votos que cada partido ha recibido en los colegios electorales (en las elecciones Europeas, España es una circunscripción única, en otros casos, la suma se aplica según las circunscripciones electorales definidas).
- Los partidos que no superen el 3% de los votos válidos (ojo con esto) quedan descartados.

Reparto de escaños:
- Los partidos que superan el 3% de votos válidos se reparten sus escaños, que según la Legislación Electoral para las elecciones Europeas, es de 64.
- El proceso de reparto aplica la Ley d'Hondt.

A grandes rasgos, éste es el proceso. Vale decir que la Legislación Electoral para las Elecciones Europeas comenta claramente que todo lo que no cubra la Legislación Europea queda en manos de la Legislación española (y la Junta Electoral Central). No conozco suficientemente la legislación al respecto, así que si alguien quiere matizar algo, los comentarios están abiertos.

Los efectos del voto en blanco en este proceso

La última parte que es clave en el proceso es repartir los votos entre partidos, ¿Es así? La respuesta es NO.

Antes de eso hay que aclarar el efecto del voto en blanco. Mientras que el voto nulo y la abstención quedan atrás, el voto blanco llega a las semifinales del proceso. Y afecta en un aspecto clave: determina el umbral mínimo de votos válidos. El voto en blanco presenta posturas a favor y en contra. No entraré en ese detalle, que cada cual valore.

Sobre los enlaces anteriores, vale la pena comentar algo: creo que el cálculo que se realiza en el enlace en contra del voto en blanco es incorrecto, aunque su valoración final es correcta.

Según el caso que comenta: Si hay 10000 votos a partidos y 5000 votos en blanco, el total de votos válidos es de 15000, por lo que el 3% de esta cantidad sería de 450 votos. Esto significaría que los partidos con menos de 450 votos se quedan fuera del reparto de escaños.

Si no hubieran votos en blanco (sólo 10000 votos a partidos), el umbral se situaría en 300 votos. Si esos votos en blanco se dirigieran a partidos (15000 votos a partidos, 0 en blanco) el umbral quedaría en 450 igualmente. Es decir, el voto en blanco afecta al umbral mínimo de votos como si fuera otro partido, pero luego se descarta en el reparto de escaños.

El 3% parece poco, pero ahora hay que mirar a las consecuencias: ¿A qué partidos afecta más este tipo de voto? el efecto del voto en blanco incide más en los partidos minoritarios. El voto en blanco dice quién pasa a las finales electorales (mis disculpas por utilizar un argot deportivo), que es el reparto de escaños según los votos recibidos por los partidos.

Análisis de sensibilidad

A veces cuesta explicar la relación causa-efecto con porcentajes. En estos casos acostumbro a plantearlo definiendo un escenario extremo. Por ejemplo, con la siguiente pregunta: ¿cuántos votos en blanco deben emitirse para que el partido mayoritario no tenga representación? Tomando el ejemplo anterior, y si consideramos 15000 votantes que han ejercido su derecho a voto, a partir del 90% podría darse esta situación.

Este 90% obedece a un caso más práctico, ya que el 10% de votos a partidos quedaría repartido entre partidos, pero es una cifra orientativa, no exacta. Para ser exactos, por encima del 97% de votos todos los partidos quedarían fuera. Considerando 15000 votos válidos, si 14550 fueran en blanco, ningún partido llegaría al reparto de escaños.

Entre los dos extremos (minoría de votos en blanco, y mayoría de votos en blanco), se puede aplicar una técnica habitual en economía: el análisis de sensibilidad. El objetivo es entender cómo afectan los cambios graduales (en este caso el total de votos en blanco) sobre el resultado final.

Si simuláramos un aumento gradual en los votos blancos, veríamos que los partidos menos votados van cayendo de la lista de finalistas. La lista de descartados aumentaría, hasta llegar al extremo comentado antes: no hay partidos que superen el umbral del 3%.

Pero ojo: antes de eso, podría darse un caso extremo: que sólo el partido más votado superara el 3% y contara en el reparto de escaños (por lo que se quedaría con todos los escaños) Esta situación revela la principal consecuencia del voto en blanco: perjudica primero a partidos minoritarios, y luego, gradualmente, a partidos más votados.

Como efecto derivado de lo anterior, y siempre a efectos de reparto de escaños, el voto en blanco equipara el voto a partidos minoritarios (que no llegan al 3%) al de la abstención o el voto nulo.

El reparto de escaños y el juego cerrado de suma cero

Ahora sí, llegamos a la última parte del proceso: Aplicar la Ley d'Hondt. Ya he comentado y simulado este sistema de reparto, así que sólo me permito recalcar un detalle: el valor individual de cada voto. Si el elector ha votado a un partido, su voto es de apoyo hacia esa opción política, e indirectamente de rechazo al resto. No hay votos negativos (rechazar explícitamente a un partido) ni votos ponderados (repartir el voto entre varios partidos), así que el voto positivo es la única opción.

El proceso de reparto de escaños obedece a una proporcionalidad. Si convertimos los votos absolutos en porcentajes de votos (con mucha precisión en los decimales de los porcentajes), el resultado es el mismo. Esto lleva a concluir que el reparto de escaños es un juego cerrado de suma cero: un voto hacia un partido es un voto menos para el resto. Eso sí, su peso depende del total de votos. Por lo tanto, cuantos más votos quedan fuera del reparto, más importancia tiene un peso adicional.

Esta consecuencia, en el contexto de alta abstención que están presentando las elecciones europeas, tiene un efecto muy importante. Esto también afecta a la importancia del voto en blanco: cuando el total de votos a partidos es menor de lo habitual, cada voto a un partido cuenta mucho más, y cada voto en blanco hace más probable el descarte de partidos minoritarios.

Conclusiones y decisiones

Después de todo el análisis, si dibuja un panorama de decisiones y efectos abiertos. La decisión de no votar, votar nulo, votar en blanco, o a un partido es una decisión de cada cual. De todos modos, se puede dibujar un escenario general sobre los efectos de cada opción.

Abstención (no-voto): Queda constancia por contraste con el nivel de participación. Las razones pueden ser varias, y las consecuencias son que no afecta a la representación de escaños ni a los partidos minoritarios, pero puede recalcar el descontento con las opciones posibles.
Voto nulo: Queda constancia en relación a los votos válidos y la abstención. Se descartan para pasar al siguiente paso, ya que no se consideran votos válidos.
Voto en blanco: Afecta al umbral de votos que hay que conseguir para acceder al reparto de escaños, pero no al reparto final. Como consecuencia, el voto puede limitar el acceso al reparto a los partidos que no acceden a ese umbral.
Voto a partidos: Tiene valor (que aumenta cuantos menos votos a partidos se emitan) en la superación del umbral mínimo, y en el reparto de escaños.

Ante estos posibles escenarios, y como he dicho antes, el voto (y el no-voto) es una opción de cada cual. Mi intención ha sido aclarar los detalles, para que la decisión sea consciente, nada más.

may. 4
2009

Programación Neurolingüística, hipnosis y buscadores

El modelo de Milton Erickson

Para desmitificar este término ,los autores proponen utilizar el término trance como sustituto y así eliminar prejuicios.

¿Qué es el trance? Entrar en trance no es algo que requiera un gran aprendizaje ni técnicas espectaculares. De hecho, el trance tal como lo exponen los autores es algo que sucede mucho más a menudo de lo que nos parece. Si has conducido y durante un rato tu mente se ha evadido, has entrado en trance. Si has perdido el hilo de la conversación, has entrado en trance. El hecho de hacer algo queriendo pero sin ser totalmente conscientes nos traslada al estado de trance. Sólo es eso.

Milton Erickson utilizaba la hipnosis para inducir el trance en sus pacientes. Lo que consiguió Erickson fue utilizar ciertos patrones del lenguaje para que las personas entraran en estado de trance. Estos patrones provocan una especie de cortocircuito en nuestra consciencia: aprovechan puertas traseras que dan acceso directo al inconsciente.

Sorprende que este proceso de entrada en trance es algo que hayamos vivido todos... si te contaban cuentos en la infancia. Frases ambiguas como érase una vez... o Hace muchos años en un país muy lejano... desbordan la capacidad consciente de un niño, igual que nos desborda el concepto de infinito cuando tratamos de representarlo. Para tratar de resolver ese desbordamiento, el inconsciente se activa para dar una respuesta plausible.

La primera conclusión de todo esto es que hemos crecido hipnotizados . La segunda, como apuntan los autores, es que la poesía es una gran fuente de términos que inducen al trance.

Patrones del lenguaje de Erickson

El modelo de Milton se basa en generalizar. Es decir, ascender en las categorías de nuestros modelos mentales. El objetivo de la generalización es relajar el contexto de unos valores. Con esta generalización la parte consciente del individuo se ve desbordada en la capacidad de concretar y deja paso al inconsciente. Explicar este proceso en dos frases lo muestra como algo superficial, por eso recomendaría a los interesados una lectura más a fondo sobre el tema.

Para conseguir este objetivo, el modelo Erickson propone utilizar formas de lenguaje explícitamente difusas, que se resumen en la siguiente serie de patrones:

Coletillas interrogativas (... ¿No es cierto? ¿Verdad?)
Acompasamiento con la experiencia actual (mientras lees estas líneas en la pantalla, puedes sentir los latidos de tu corazón...)
Dobles vínculos (Puedes seguir leyendo ahora o bien hacerlo más tarde).
Postulados conversacionales (¿Puedes cerrar la puerta? ¿Puedes bajar la basura?). Es una pregunta que en realidad es una orden.
Citas extendidas (Creo que lo que dice este libro sobre lo que decía Grinder en relación a lo que afirmaba Erickson...).
Violaciones de la restricción selectiva (consultaré con mi almohada. Las paredes oyen. La pantalla de tu ordenador está cansada). Atribuir sentimientos o propiedades a un animal u objeto.
Ambigüedades fonológicas: Términos con significados y escritura diferente que se pronuncian igual.
Ambigüedad sintáctica: Sucede cuando no podemos determinar la función sintáctica de una palabra dentro de la frase que utilizamos.
Ambigüedad de ámbito: (Loción para pies de menta: ¿qué es de menta? ¿La loción o los pies?).
Ambigüedad en la puntuación: Cualquier defecto de construcción en los signos de puntuación que genera una ambigüedad en el significado.
Utilización: Se basa en aprovechar una circunstancia ajena a nuestro discurso para implicar al receptor. Puede ser un sonido o imagen del entorno, o bien parte de la frase que nuestro interlocutor ha mencionado.
órdenes incrustadas y marcado analógico: Son partes de una frase que se pronuncian con un tono más bajo y un volumen más alto y que implican una orden.
Deletrado de palabras.
Lenguaje de conexión (conjunción y disyunción). Al conectar sentencias se rompe el límite del significado en cada caso, por lo que la capacidad de procesar el conjunto es superior. Al hacer esto se distrae a la consciencia. (No sé si te estás concentrando mucho al leer este texto, o estás escuchando música a la vez, o si te gustaría estar haciendo otras cosas, pero sé que puedes relajarte en cuanto lo desees).

Otro de los conceptos interesantes deducibles del modelo Erickson es el Isomorfismo: dos elementos que actúan igual a nivel externo pero que tienen un contenido diferente son isomórficos. El término isomorfismo parece algo lejano al lenguaje, pero tiene una relación muy directa: si hablamos de metáforas, fábulas y cualquier recurso estilístico que represente una analogía en la relación Imagen-Representación, estamos utilizando un isomorfismo.

Buscadores en trance

En la lista anterior algunos de los puntos son aplicables casi de forma exclusiva en la comunicación sonora, pero en otros casos los patrones son plenamente aplicables a cualquier forma de comunicación, incluyendo la escrita.

Me parece curioso comprobar las analogías que existen entre los patrones del lenguaje que inducen al trance, y el estado de ambigüedad, tanto terminológica como sintáctica. Parece que el proceso de aprendizaje y el trance corren paralelos. Recibimos una información que intentamos manejar para conceptualizar y contextualizar, y resulta que la ambigüedad bloquea nuestros engranajes conscientes. Si la información se puede desambiguar, aprendemos; en caso contrario, quizá entramos en trance.

Trasladando este proceso de "trance" a la recuperación de la información, se sabe que la ambigüedad (y la generalización) genera mayor exhaustividad que precisión (muchos resultados, poco precisos). Si el buscador fuera humano, su trance se traduciría en verborrea, como si fuera un diálogo interno.

Las técnicas de desambiguación de los lenguajes documentales tratan de resolver ese ruido, porque se espera que el modelo cognitivo del individuo y el índice del sistema sean suficientemente similares. Lo que sucede actualmente es que esta circunstancia no es habitual (exceptuando a profesionales recuperando en base a lenguajes controlados), y especialmente cuando se utilizan los buscadores generalistas del entorno web. La cantidad ingente de información oculta un poco esa situación, pero muy pocas veces tenemos la certeza que una búsqueda nos aporta el documento más relevante.

Aplicando el modelo de Erickson a los buscadores, quizá "hipnotizar" a los buscadores permita mejorar la recuperación, utilizando un proceso inverso al actual: ambiguar para crear situaciones de serendipia o simplemente de interacción del usuario. En base a los estudios realizados en la recuperación, parece que hay una analogía interesante entre los niveles del modelo Erickson y el modelo estratificado de Saracevic. Uno y otro caminan en sentidos contrarios, pero quizá se pueda encontrar un punto de intersección entre ambos y abrir vías para introducir mejoras en algoritmos.

Las búsquedas ambiguas del usuario (y no el documento ni el algoritmo) pueden ser vías para diagnosticar los desórdenes (por ambigüedad) en el índice del buscador. Desde luego, esto último no es tarea del propio usuario, sino de la mejora continua de los algoritmos.

Como en otros casos, la inversión de criterios (ambiguar en vez de concretar) puede aportar vías alternativas de análisis para responder algunas cuestiones que los análisis clásicos, basados en criterios de consciencia y coherencia, quizá no puedan resolver.

Para muestra un botón: las palabras vacías son teóricamente un engorro para la recuperación de información desambiguada, pero pueden ser un recurso muy interesante para detectar el idioma de un documento. Dada su constante presencia en el texto, pueden incluso ayudar a detectar fragmentos de texto con un idioma distinto al general del documento. La detección del idioma forma parte de la indexación y no de la recuperación, pero afecta a la relevancia.

La ambigüedad en la búsqueda trata de perseguir un objetivo similar: destilar factores de relevancia distintos al que nos aporta el contenido. No se van a resolver en el mismo momento de la recuperación (si lo que queremos es que el usuario desambigüe, ya existe la opción de recibir el feedback del usuario), sino que mejoraran el proceso de indexación.

abr. 6
2009

Y ya van dos años

Cuatro datos

Son dos años, dedicados a encontrar momentos para escribir algo que pueda interesar a los más o menos 25 lectores de mis feeds y a los visitantes ocasionales del sitio.

Dos años que han ido evolucionando para encontrar un tono y unos temas de interés que puedan ser tan originales como sea posible, ya sea por la temática o por el enfoque.

Fruto de esto, el blog a crecido. Con humildad desde luego, pero al menos uno tiene la sensación que ya tengo datos suficientes para saber qué distancia hay que recorrer entre lo que puede interesar a otros y lo que me interesa a mí.

Desde que cambié el diseño los indicadores básicos han crecido. Comparando este último mes con la misma época del año pasado, el crecimiento también es palpable. Todos los indicadores han mejorado positivamente Por ejemplo:

Las visitas han crecido en un 80% (de las 840 a las 1500), y las páginas vistas en un 99% (de 1000 a 2100).
El número de páginas por visitas ha aumentado un 11% (es decir, poco: de 1,26 a 1,4),
el tiempo medio en las páginas ha aumentado un 74% (de 1:17 a 2:14),
y tanto el porcentaje de rebote com el de visitas nuevas ha mejorado (estos indicadores son algo relativos, vale decirlo).

Tomados los datos así la verdad es que el crecimiento parece bueno. Echando un vistazo a los datos, creo que valdría la pena evaluar estas cantidades descartando las visitas que han durado menos de 20 segundos: de este modo se reduce mucho el número de páginas vistas, pero aumenta bastante el tiempo medio por página y el número de páginas vistas (al final, el objetivo es que la lectura sea interesante, y que sea de uno o más artículos).

Una parte de las mejoras las atribuyo al cambio de diseño, que permite una mejor navegación entre apartados, de modo que mejora ligeramente el número de páginas vistas. Estoy bastante convencido que este diseño evolucionará un poquito más a nivel de navegación, y bastante más a nivel de funcionalidades, pero dado que este blog es un proceso a largo plazo, mejor no avanzar eventos.

El otro detalle que seguramente ha provocado el aumento de visitas es el mayor ritmo de publicación (el año pasado dejé de publicar por exceso de trabajo y eso se notó).

Pero lo que sí provoca un efecto positivo es el del enlace desde otros blogs, y aquí (una vez más) merece mención aparte la recomendación de Yusef (gracias), que ha dado visibilidad al artículo. Lo mejor es comprobar que existen fuentes que, como la suya, tratan (con humor, que no falte), la importancia de entender a utilizar los datos y las herramientas estadísticas para mejorar el entendimiento de lo que nos rodea.

De aquí en adelante

últimamente me he aficionado a comentar temas relacionados con la estadística, dándoles un enfoque más llano e informal. Internet es una fuente más que suficiente para los contenidos formales en estadística, aunque desde luego hay que saber filtrar las fuentes.

La razón por la que escribo sobre este tema es que, de los tres temas principales que trato habitualmente, la estadística es la que acostumbra a presentar una mayor barrera de entrada.

Por ejemplo, la informática puede generar rechazo, pero hay infinidad de posibilidades y necesidades que dan la oportunidad de perderle el miedo y ganar tiempo. Lo mismo sucede con la documentación: un edificio conceptual dirigido a organizar contenidos tiene sentido cuando tomamos conciencia del tiempo quer perdemos leyendo blogs, y luego buscando los artículos que nos interesaban.

Eso no significa que deje de lado el resto de temas. Mi principal objetivo es encontrar temas que combinen dos o más disciplinas, ya que creo que de este modo se crean más puntos de acceso al aprendizaje.

Cada día que pasa sigo pensando que las tres disciplinas se interrelacionan formando un cruce de caminos muy fértil, especialmente por la lluvia de datos que cae sobre nosotros en la actualidad.

Así que siguiendo adelante, es probable que me centre durante un tiempo en explicar los cuatro conceptos clave de la estadística, para luego poder utilizar esta base en artículos relacionados con los otros temas. Siempre con más ánimo didáctico que formal, por si a alguien le interesa.

mar. 11
2009

Open Flash Chart 2 - Mejorando los gráficos estadísticos

El Cambio a JSON

En la versión 1 de OFC, el formato para transferir los datos era el "nativo" de Flash. Esto implicaba que los datos estaban incluidos &entre ampersands&. Ante las pocas posibilidades del formato, uno puede esperar cualquier problema derivado de entidades HTML, etiquetas con un simple signo & o cualquier otra cosa.

Con el cambio, los datos se transfieren con una estructura equivalente a la que podría incluir una matriz de datos, para luego ser capturados e interpretados por el archivo SWF en el navegador.

Implantación

Como efecto secundario positivo, es más fácil implantar una solución con esta versión. Esto incluye el desarrollo de funcionalidades (si no satisfacen las bibliotecas en entorno servidor disponibles en el sitio), su integración, depuración y testeo. Por no hablar del soporte UTF8 de Flash y JSON, algo teóricamente básico pero a veces dramático (es de esperar que PHP6 solucione esto de una vez). Todo esto parece simplificarnos la vida en el desarrollo.

La opción de crear una biblioteca alternativa a las ya existentes puede tener sentido por cuestiones de simplificación. Por ejemplo, en la versión PHP5 de la biblioteca las funcionalidades se encuentran disgregadas en varias clases y archivos. Quizá esta estructura tenga sentido en el futuro para albergar gran cantidad de configuraciones, pero actualmente parece excesiva. Por otro lado, las aplicaciones potenciales de la biblioteca en un caso concreto pueden ser muy concretas, con lo que simplificar el código del servidor puede reducir levemente el tiempo de carga (esto se puede notar en sitios con altas tasas de tráfico, no en el resto).

Actualmente casi todos los tipos de gráficos comparten una gran cantidad de las caracterÃsticas de configuración, mientras que sólo en algunos casos concretos se utilizan atributos o estructuras de valores diferentes. Esto dice mucho en favor de la parte cliente (el archivo SWF Flash que se inserta en la página para mostrar el gráfico) de OFC, pero poco en favor de la parte servidor (la biblioteca PHP5 al menos). De todos modos esta crítica es muy relativa: creo que se trata de una visión de futuro por parte del creador del proyecto, que se verá en versiones posteriores. Hay que tener algo de paciencia.

Modelo de datos

Para entender las posibilidades que ofrece OFC2, hay que ir un poco más al fondo en la estructura de la configuración de un gráfico. Resumiendo las características principales del modelo de datos, se puede diferenciar entre la configuración del gráfico como elemento genérico y la representación de cada serie de datos. En la primera parte se puede configurar el gráfico a nivel de cabecera, y luego pasar a configurar cada grupo de datos (serie).

Cabecera del gráfico

En el caso de la cabecera podemos encontrar los siguientes elementos de configuración:

title: Texto y estilo (en formato tipo CSS) del título principal del gráfico.
y_legend: Texto y estilo del eje vertical. Esto no es aplicable en gráficos como el diagrama de sectores.
x_axis: Características de configuración del eje horizontal del gráfico. Estas características incluyen el grueso y color del eje, sus etiquetas, y otros detalles.
y_axis: Prácticamente idéntico al caso de x_axis, salvo en detalles, como definir los valores del límite inferior y superior del gráfico.

Todos estos elementos son opcionales, por lo que se pueden dejar de lado al iniciar los testeos iniciales y entrar a fondo cuando sea cuestión de dejarlo bonito. En los casos de gráficos que no tienen ejes de coordenadas X-Y (como los gráficos de sectores), las configuraciones de coordenadas pueden ser directamente inútiles porque los gráficos no lo necesitan.

Elementos del gráfico

Cada representación gráfica de datos se denomina Element en la biblioteca OFC2, y se encuentra incluido en el apartado "elements" de la configuración. Para crear un diagrama de barras, de sectores o cualquier otro se define un elemento con su configuración concreta. Esta configuración debe adaptarse a la configuración de cabecera, básicamente en lo relativo a escala y etiquetas.

Muchos de los atributos de configuración de cada gráfico son comunes, entre los cuales podemos encontrar los siguientes:

type: Es el que define el tipo de gráfico. Los tipos disponibles por ahora son: pie, bar, bar_glass, bar_3d, hbar, line, scatter, scatter_line, line_dot, line_hollow, y area_hollow (en este caso es posible crear gráficos de tipo radar).
alpha: Transparencia del gráfico. Cuanto menor es el valor, más transparencia.
colour: Color de la serie de datos, en formato hexadecimal.
text: Texto de la leyenda que etiqueta la serie.
font-size: TamaÃ±o de la fuente de las etiquetas de datos (no de la leyenda).
values: Listado de valores de la serie. En este campo hay pequeñas variaciones (en algunos casos hay que indicar dos valores), y en el gráfico de sectores hay que indicar el par valor/etiqueta).

Otras configuraciones (en principio específicas) que podemos encontrar son:

animate: Crea una agradable animación del gráfico para desplegar los datos. en algunos casos (por ejemplo del gráfico de sectores, "pie") el grafico se inicia plegado y se abre en abanico hasta cerrar el cÃrculo. Puede ser que no funcione en todos los casos.
stroke: Tamaño de la línea delimitadora del gráfico.
dot-size: Tamaño del punto en el gráfico de líneas con puntos (line_dot), entre otros.

Algunos ejemplos

He generado algunos ejemplos con datos estáticos para mostrar algunos ejemplos. En el apartado de tutoriales del sitio podéis encontrar muestras de gráficos con enlaces a sus archivos de configuración, con lo que es suficiente para profundizar en el modelo de datos.

Comentarios

Desde el punto de vista de la implantación, la versión 2 de OFC es mucho más simple, aunque su configuración queda reservada a desarrolladores y no como utilidad (widget) para usuarios finales. Eso es una cuestión a mejorar en cualquiera de estos tipos de bibliotecas, algo que facilitaría su popularización. Me gustaría publicar un pequeño asistente de creación de gráficos standalone (introducir la configuración y los datos, y obtener el código para incrustarlo): queda apuntado en la lista de tareas pendientes.

Por otro lado, OFC2 sigue siendo una biblioteca sencilla en cuanto a la variedad de gráficos que se pueden utilizar, aunque han mejorado. También hay que decir que con esta nueva versión parecen sentarse buenas bases para el desarrollo de una herramienta completa y potente. Por lo tanto, habrá que esperar a nuevas versiones para ver más tipos de gráficos.

Sopa de bits

Categories

Fuentes y datos

Datos abiertos públicos y privados

Transparencia también es privacidad

Generar el micelio

Un punto de vista diferente

Los malos también aprenden

La dispersión no levanta revoluciones

Conclusiones y valoraciones

Comparando los gráficos

Mensaje 1: Guerra y evolución de los navegadores

Mensaje 2: Los navegadores estables

Mensaje 3: los nuevos participantes

Diagnóstico del gráfico

Aplicaciones y conclusiones

Modificación del código

Compilación

El origen: Browser Market Share

Las fuentes de datos

Unificación de las series de datos

Cálculo del tamaño de los anillos

El cálculo

Buscando referentes

Diagnóstico por la imagen

Representación, visualización e interacción

Qué podemos extraer de la visualización de datos

El proceso de recuento de votos: la secuencia

Los efectos del voto en blanco en este proceso

Análisis de sensibilidad

El reparto de escaños y el juego cerrado de suma cero

Conclusiones y decisiones

El modelo de Milton Erickson

Patrones del lenguaje de Erickson

Buscadores en trance

Cuatro datos

De aquí en adelante

El Cambio a JSON

Implantación

Modelo de datos

Cabecera del gráfico

Elementos del gráfico

Algunos ejemplos

Comentarios