mar. 28
2011
Hace pocos días Matthew Hurst hacía un comentario en su blog Data Mining que posteriormente fue mencionado en Barrapunto a propósito de la presentación de Open Data Cordoba:
Los datos abiertos son una parte de la transparencia. Son condición necesaria pero no suficiente.
Quizá estamos presenciando una fase de crecimiento que permita imaginar (léase soñar) en una masa crítica de fuentes y datos. Tanto unas como otros son imprescindibles para garantizar la posibilidad de contrastar, verificar y también adaptarse a las necesidades concretas.
En mi opinión, se llegará a la masa crítica en el momento que existan datos potencialmente vinculables (no sólo open, sino también linked) y posibilidad de consultas a nivel atómico, sólo recuperando una parte de la información (y no descargar necesariamente 100MB de datos, por ejemplo).
Ahora suena a una idea lejana, pero ¿no es así como floreció y maduró el código abierto? ¿Por qué no los datos? Como sucede con el primero, la idea de abrir datos puede tener efectos distintos en cada caso, pero eso no lo hace descartable. Como comenta Nigel Shaboldt en la nueva revista thinkquarterly de Google:
Pregúntate: ¿Qué informaciones tienes? ¿Algunas de estas pueden ser publicadas libremente para mejorar la transparencia o mejorar la imagen de marca?
No siempre funciona, pero ha funcionado.
Por ejemplo, en el caso de los datos municipales, varias administraciones pueden facilitar información. Si es posible obtener datos de varias fuentes para los municipios de una provincia (por ejemplo, a través de la codificación de municipios), ya es suficiente. Utilizando estas codificaciones ya disponemos de un valor clave para vincular, por lo que se puede dar el paso al procesado (seleccionar los datos necesarios, crear variables derivadas, etc.) y análisis (obtener las respuestas).
La convivencia entre transparencia y privacidad es la garantía de subsistencia de los datos abiertos. Todo aquello que enturbie esta convivencia (llámese cotilleo, vigilancia o como se quiera) es mejor que se quede al margen.
Su forma, su existencia (principalmente en el subsuelo) y su ubicuidad lo asemejan a la existencia de datos. Estos datos, que hasta hace poco eran difíciles de obtener, están empezando a aparecer (sí, como setas). En gran parte por nuestra actividad a través de dispositivos electrónicos e Internet, pero también por los datos abiertos.
Su existencia altera el contenido del substrato para crear relaciones simbióticas con (y a veces incluso preparar el terreno para) vegetales superiores. Su capacidad para aparecer en los lugares más inhóspitos (porque los datos crecen en todas partes donde alguien quiera buscarlos) no tiene igual. Y por si fuera poco, evitan la erosión del suelo fértil donde se desarrolla.
Esas son las características deseables para los datos abiertos. Pero quizá para explicar esto, lo mejor sea un vídeo de TED: seis maneras en que los hongos pueden salvar al mundo.
En especial me llamó la atención el fragmento de los minutos 8:00-9:35, pero el video en conjunto es muy recomendable: Paul Stamet impregna con pasión todas las revelaciones del vídeo.
Read more »
mar. 17
2011
De los días posteriores al 11-M, una de las cosas que recuerdo es que Internet y los SMS jugaron un papel decisivo. Mientras que en España se mantenía una versión oficial, fuentes externas desvelaron que la situación no apuntaba hacia allí; algo pasaba. Y algo pasó.
Decir que Internet ha proporcionado cosas buenas es evidenciar lo vivido. La comunicación con amigos o familiares lejanos, conocer las noticias por varias fuentes, en tiempo real y sin intermediaciones...
Pero esta evolución no sólo (o no siempre) tiene efectos positivos.
Aunque estoy encantado con este medio, estoy más cercano al creyente poco convencido. Así que cuando tuve conocimiento de este libro (323pp., por ahora sólo en inglés) me decidí a leerlo. Os traslado algunas pinceladas de lo que más me ha atraído, y recomiendo su lectura, al menos por su disonancia respecto al mensaje predominante.
Entre los primeros pasos que da el libro, una de ellas es marcar una distancia entre lo que considera el referente equivocado que se está aplicando sobre Internet como herramienta de apertura democrática: la caída del muro de Berlín y el rol de los Samizdat o de Radio Free Europe.
En un esquema que repetirá con otros estereotipos, Morozov desmonta la falsa idea que los Samizdat ayudaron a la caída del muro. Expone que en algunos casos la llegada de la cultura occidental más bien ayudó a mantener el régimen durante los últimos años. Cita por ejemplo el caso de la señal de televisión que llegaba desde la RFA: Realizaron estudios de satisfacción (lo digo así para que se entienda) sobre la población y comprobaron que la crítica hacia el régimen se acentuaba... cuanto menor era la intensidad de la señal de la TV occidental.
¿Por qué? Pues simplemente porque la gente estaba entretenida mirando los concursos y los shows, se evadían de su rutina diaria y seguían con su vida. El gobierno de Honnecker, a sabiendas de esta situación, decidió no hacer nada. Hasta el momento en que, debido al previsible colapso de la URSS, todo cambió rápidamente.
Al aplicar la idea de los samizdat a Internet se comete un error grave: no todos los regímenes totalitarios tienen las mismas fortalezas y debilidades. El bloque del este era un aparato relativamente más homogéneo en cuanto a estructuras de poder, medios y cultura. Utilizar las mismas herramientas para un mundo tan heterogéneo como el actual tiene poco sentido y muchos peligros, porque no está claro si la introducción de Internet refuerza más a los disidentes o al poder que oprime.
Aplicar los criterios de privacidad de Facebook a Twitter en un país democrático puede provocar situaciones comprometidas, pero... ¿y si se aplica en un país en los que existe un riesgo físico para los disidentes?
Los gobiernos han aprendido a integrar Internet como a herramienta complementaria en sus tres estrategias de control sobre la información: censura, propaganda y vigilancia [surveillance]. La herramienta de la libertad se convierte en represión.
Internet ha potenciado las tres estrategias, pero la última es la más delicada: si tú puedes seguir una cuenta de twitter que te cuenta desde un país determinado lo que está ocurriendo, ¿por qué no lo va a seguir alguien implicado en contra? Si eso sucede, ¿Qué opciones tiene un disidente para garantizar su integridad y la de su entorno?
Es la situación que pueden vivir disidentes que utilizan las redes para transmitir las novedades. ¿Tú les lees? Ellos también.
Para rematar lo anterior, Facebook, Twitter y Google no siempre han ofrecido un mensaje claro respecto a su connivencia/implicación/rechazo en estos contextos. La administración americana (Obama incluido) es foco de críticas por su ambivalencia y por la, siempre según su opinión, poca visión de las consecuencias.
Carga también sobre la afirmación de La próxima revolución empezará en Twitter. Dejando de lado que el único éxito que ha conseguido esta frase es la campaña de marketing gratuita que se ha hecho sobre el servicio del pajarito, Morozov carga contra los ilusos que piensan así.
¿Creen realmente que por unas páginas en Facebook con muchos fans y otros cuantos tweets, el regimen saldrá a la puerta y dirá "tenéis razón, os dejamos el país en vuestras manos"?.
Organizados o no, convocaron huelgas que (probablemente) provocaron más escasez de la que había y/o disturbios, que acabaron desembocando en lo que hemos vivido últimamente.
La cuestión es que Internet se ha demostrado, por lo general, como un mal canal para iniciar revoluciones. No se trata de seguir ni recopilar información sobre. Se trata de hacer la revolución. Y para hacer la revolución es necesario focalizar.
Internet puede ser un excelente canal para la coordinación, pero no está pensado específicamente para ello. Es necesario entenderlo más a fondo para que sirva a los objetivos de acciones organizadas.
Ahora bien, es cierto que para exponer un punto de vista tan diferente es necesario dedicarle espacio. Sus argumentaciones se basan en una buena cantidad de fuentes, que van desde estudios de población, discursos políticos, informes de organizaciones de defensa de los derechos humanos, etc.
Quizá otras propuestas más claras llegarán con una segunda obra, quién sabe.
Read more »
ene. 12
2010
¿Casualidad? Según la Wikipedia, en 2003 AOL firma un contrato para para utilizar el layout Engine de Internet Explorer. Si esto tiene una relación directa con la desaparición "de facto" de este navegador (o al menos de su firma identificativa), ya es algo a contrastar.
Pero sigamos con Netscape. Precisamente AOL (propietaria de Netscape) dejó de acompañar a Mozilla Organization en Julio de 2003 (¿habrá relación entre esto y el acuerdo con Internet Explorer?). En esos momentos se creó la Mozilla Foundation, que ya llevaba trabajando en una versión preliminar de su navegador Mozilla (primero Phoenix, luego Firebird, y desde enero de 2004, Firefox). Es interesante ver que, a partir de ese momento, la franja marrón empieza a crecer, para ser finalmente absorbida por la franja naranja. Mientras Netscape da coletazos agónicos (que acaban en Marzo de 2008), y la versión 6 de Internet Explorer es líder indiscutible de la parte derecha del gráfico, algo va creciendo por el flanco izquierdo.
Y mientras eso sucede, Internet Explorer 7 intenta cerrar el espacio a Internet Explorer 6, incluso cuando ha llegado la versión 8 (que ya no sale en el gráfico). Quizá en este esfuerzo exista una clave del por qué del crecimiento de navegadores alternativos.
Lo mismo sucede con Safari. Es ligero y ágil, su ecosistema es muy concreto (MacOS, aunque ahora exista versión para Windows) y dispone de un público fiel. Ambos van a su ritmo, sin altibajos.
El gráfico en este sentido es ambiguo. Observando el anillo externo, parece que Firefox gana terreno, pero vemos que es porque Chrome le muerde un trozo de la tarta. Si se puede decir que alguien está avanzando en cuota de mercado, no es estrictamente Firefox, sino los navegadores alternativos. a Internet Explorer Habrá que ver a lo largo del próximo año si Internet Explorer recupera terreno. De momento parece que lo pierde, y rápido.
A favor:
Un posible uso del gráfico puede ser el seguimiento de un servicio de atención al cliente, o simplemente de trazabilidad de un servicio en general. Por ejemplo, en entornos de desarrollo puede ser interesante mostrar los tipos de actuaciones según su tipo. Aparecerían acciones como programar nuevas funcionalidades de una aplicación, mejorar las existentes, corrección de errores, reuniones con el cliente...
Cada anillo puede representar una entrega o versión de la aplicación con su fecha correspondiente (o el número de horas dedicado). Y probablemente con este sistema se detectarían esos límites de crecimiento de las aplicaciones que requieren de un parón y refactorización.
Sobre el gráfico en sí extraigo una conclusión. Al centrarnos en un mensaje visual, nos vemos obligados a obviar una serie de datos o características que describen mejor el conjunto. En este caso, hay que optar entre una lectura radial (como en los clásicos gráficos de sectores) o una de conjunto, y siempre tener en cuenta esta decisión en el momento de interpretar el gráfico. Si vamos a presentar este gráfico a alguien que desconoce su origen, vale la pena matizar su explicación con texto o bien con otro gràfico complementario.
Sólo me queda felicitar a Michael Van Daniker por su excelente trabajo, tanto por ejemplo de este gráfico como por la propia biblioteca Axiis.
Read more »
ene. 11
2010
La primera parte es relativamente sencilla, teniendo el archivo XML generado en la hoja de cálculo. Sólo hay que tener en cuenta de no olvidarse de los tags ... que engloban todo el contenido. Pasamos al segundo paso.
En la versión original estos radios son constantes. Pero ahora lo que hay que hacer es utilizar los atributos innerRadius y outerRadius generados en el archivo XML. Los valores aquí ya tienen que ser absolutos, por lo que hemos de multiplicar los radios normalizados a 1 por el radio total del gráfico. Las líneas deben contener lo siguiente:
innerRadius="{radialLayout.currentDatum.innerRadius*radialLayout.height/2}"
outerRadius="{radialLayout.currentDatum.outerRadius*radialLayout.height/2}"
Describo brevemente los parámetros de las fórmulas:
/ruta/hasta/flex/bin/mxmlc BrowserMarketShare.mxml -include-libraries ../libs/DegrafaLibrary.swc ../libs/AxiisLibrary.swc
Compilando en Windows, el programa es mxmlc.exe, y las rutas a los directorios se indican con contrabarra (\).
Aparecerán algunos avisos pero todo funciona correctamente. La última línea del proceso será algo así como:
/home/_usuario_/..../axiis examples/src/BrowserMarketShare.swf (568757 bytes)
Puedes abrir el archivo SWF en tu navegador y verás algo parecido a la siguiente imagen:
¿Todo bien? ¿Algo no ha funcionado? Si dejas algún comentario quizá lo aclaremos. Clicando con el botón derecho en la versión de pantalla completa puedes ver el código del archivo MXML.
Queda un último apartado para comentar los resultados del gráfico, compararlo con el original, analizar qué podemos extraer de él, y valorar las ventajas e inconvenientes por los criterios que he seguido.
Read more »
ene. 9
2010
Observando el gráfico, se puede encontrar una analogía con los anillos de un tronco de árbol. Los datos que muestra se refieren a las estadísticas de navegadores de w3schools.com (W3S) desde Enero de 2002 hasta finales del 2009. Empezando desde el centro, cada anillo representa el porcentaje de un intervalo de tiempo determinado. Navegando por la versión Flash se puede ver el mes/año, el navegador de cada arco y su porcentaje de penetración.
Sin embargo, hay una serie de cuestiones que me interesaron en aras a mejorar el resultado final:
Los datos de W3S no incluyen el volumen (ni real ni estimado) de usuarios conectados a Internet. Por lo tanto, hay que buscar fuentes complementarias. Sin entrar en criterios estrictos de veracidad ni fiabilidad, he seleccionado la fuente Internet Growth Statistics del Internet World Stats. Para el objetivo que me ocupa, es suficiente.
Como se puede comprobar en el enlace, los datos distan de ser concretos. Para acabar de arreglarlo, las series de datos no concuerdan con las del W3S. En este punto tenemos dos opciones: seguir buscando, o echar mano de la hoja de cálculo y algunas fórmulas matemáticas. Opto por la segunda.
Una vez organizados los datos, queda unificar las series. ¿Cómo podemos llevarlo a cabo? Por interpolación. La ventaja es que es un proceso relativamente sencillo, y el inconveniente es que sacrificamos algunos datos (pocos) de la serie.
En este caso he escogido la interpolación lineal. Muy probablemente no sea la mejor (¿lo será la cúbica?): en este caso es útil y suficiente.
Para realizar interpolación entre fechas, éstas se convierten en valores numéricos (por ejemplo, días transcurridos desde el 1/1/1970). Otros dos detalles que considero son:
Para obtener esta diferencia, sacrifico otro dato del inicio de la serie. (ya van tres) Al precisar la diferencia respecto al anterior, el primero (que se supone que no tiene anterior) se cae de la lista.
Podría solucionar este detalle utilizando la cifra absoluta (el número de usuarios al iniciar ese periodo) para dibujar el círculo más interior del gráfico,. Sin embargo, lo descarto porque eso supone perder un espacio considerable. Se puede comprobar que el primer círculo sería proporcional a unos 500 millones de usuarios, mientras que el resto de anillos tienen un crecimiento mucho inferior (una décima parte en los mejores casos).
Hay otra razón para escoger el criterio de la proporción por área: representar el crecimiento actual en relación al pasado. Esto es algo interesante porque el grueso del tronco nos muestra la velocidad de crecimiento. Si este mismo gráfico se realizara con barras o columnas relativas (ocupando una misma altura, ajustando la anchura al crecimiento de usuarios, y repartiendo el área proporcionalmente), el efecto visual de las columnas "anchas" sería mucho más acusado.
En cambio, al repartirse por un área concéntrica que aumenta de radio, lo visualmente constante (anillos de un mismo grueso) es el crecimiento respecto al anillo anterior, que no el crecimiento en sí. Por ejemplo, revisando los datos se puede comprobar que los anillos interiores crecen a un ritmo de 15-20 millones de usuarios, a pesar que se ven gruesos. En cambio, los anillos más exteriores, que parecen normalitos están creciendo a un ritmo de 40 millones de usuarios. Esto quiere decir que requiere más esfuerzo aumentar el radio en cada anillo más exterior. Es un comportamiento habitual, por ejemplo, al analizar las tasas de crecimiento de las empresas. Y es algo directamente relacionado con la viralidad de este medio (el efecto red una teoría algo criticada).
La pregunta es: ¿Se está engañando? No: se está centrando el mensaje en la tasa de crecimiento. Volviendo a la analogía de los anillos del árbol, podemos suponer que el tronco parezca mantener un crecimiento gradual. Pero lo que está sucediendo es que el tronco crece proporcionalmente un poco más rápido... ocupando el mínimo espacio posible. En el gráfico sucede lo mismo: si utilizáramos barras, el espacio de representación sería mucho mayor y quitaría importancia a los primeros datos de la serie.
Como efecto derivado, en este gráfico podemos ver el efecto de la "viralidad" de los navegadores. Siguiendo la analogía del tronco, el gráfico muestra el cambio de nutrientes del substrato que es el mercado de los navegadores.
Ahora debo deducir el radio para que el círculo ocupe este área. Para ello, tengo que invertir la fórmula del área del círculo: A = π·r2. Pero ojo, tengo que restar siempre el área de los anillos interiores. Por lo tanto, calculo los radios de dentro hacia a fuera.
Para saber el radio del nuevo anillo debo:
r = sqrt(a+A), donde:
Dado que hemos supuesto que el área del círculo es 1, la suma de los radios no equivaldrá a uno (en realidad es de unos 0,564...). Esto es correcto: lo podemos comprobar calculando el área del círculo con radio 0,564... y nos dará como resultado 1.
Y finalmente, el último paso: debemos estirar los radios para que el total sea 1. ¿Por qué? Pues para poder calcular con más facilidad los radios del gráfico en la pantalla. Esto es sencillo: basta dividir cada fragmento de radio por 0,564..., y ya tenemos los radios proporcionados a 1. Lo que estoy haciendo aquí no es más que normalizar: ajustar una serie de valores a una medida global concreta. (la norma) Es importante no confundir con estandarizar (convertir un valor de una distribución normal a la normal estándar de media 0 y desviación 1).
Con este cálculo y algunas manipulaciones de texto en la hoja de cálculo, ya tenemos un archivo XML similar al original. Sólo he añadido los valores del radio interno (la suma de radios interiores) y externo (interiores + radio del anillo). También muestro en la etiqueta de cada sector (navegador del periodo concreto) el número total de usuarios que aumentan en cada anillo, para que sea más fácil comprobar las diferencias entre las cifras y el efecto visual.
El siguiente paso es modificar el código del ejemplo original (para adaptar los radios y cambiar algunas etiquetas) y ya podremos compilar. En el siguiente artículo comento las modificaciones y el resultado.
Read more »
oct. 17
2009
La razón de ser de la visualización de datos es muy representativa (valga la redundancia) de la época actual. Tenemos infinidad de datos que necesitamos procesar, y necesitamos indicadores y técnicas para resumirlos. Sin embargo, por ahora disponemos de pocas herramientas que sean útiles y estables para estos objetivos.
Ante esta aparente falta de herramientas, mi opción es adoptar una postura ingenua y buscar referentes que me ayuden a determinar los aspectos clave.
Desde un punto de vista ingenuo, sorprende ver cómo al primer vistazo un profesional puede detectar los factores clave del diagnóstico. Pero adentrándose en los aspectos técnicos, sorprende entender la cantidad de parámetros posibles (técnicos y humanos) que pueden afectar para que una imagen permita las garantías básicas del diagnóstico. Por resumirlo en una frase: la clave está en combinar la focalización en los detalles sin pérdida de contexto.
Para resaltar estos detalles, la clave está en la posición del cuerpo del paciente, la potencia de la radiación emitida (los huesos de la cabeza necesitan más radiación porque son mucho más densos que, por ejemplo, el tórax), el ángulo del disparo (el encuadre de la imagen, por llamarlo así), e incluso la posibilidad que el paciente tenga los pulmones llenos de aire. Pura técnica de muestreo.
Un cambio en los parámetros altera el resultado final, con lo que se obtiene una imagen borrosa, oscura o demasiado clara. Dado que sus fines no son estéticos sino de salud, la nitidez del órgano o fragmento a radiografiar son claves para el diagnóstico.
Sin embargo, la representación gráfica clásica se concentra en unos pocos parámetros. Con este límite, es relativamente fácil representar datos, ya que se puede utilizar formas geométricas simples, espacios delimitados, colores concretos, y cifras fijadas. Dada la tradicional escasez de datos, esta relación entre complejidad y resultados es más que suficiente. De hecho, va bien que sea así: cuanto más simple, mejor.
Lo que sucede actualmente es que tenemos muy a mano gran cantidad de datos. Por si fuera poco, el nivel de interrelación entre conjuntos de datos ha aumentado mucho: antes conseguir estas características era difícil, especialmente por el coste asociado al muestreo. Ahora es una cuestión casi de rutina.
Con el aumento del volumen de los datos llegan varias consecuencias:
Creo que estos tres niveles (visualización, organización e interacción) corren paralelos a los niveles de información (datos, información y conocimiento). Los datos con un buen nivel de interacción y personalización podrían transmitir un mensaje adecuado para el receptor (por contraposición a un mensaje predefinido por el emisor), que mejora la transferencia de ideas.
jun. 5
2009
Entre los tipos de votos hay que diferenciar a dos niveles: los que cuentan (de algún modo), y los que no cuentan en la determinación de escaños..
El voto nulo o la abstención son decisiones que no afectan al reparto de escaños ni al umbral de votos mínimos, por lo que no condicionan la representación política. La diferencia principal es que el voto nulo consta en las actas de las mesas electorales, mientras que la abstención sólo consta al comparar estas actas con el censo.
En lo relativo al voto a partidos o en blanco, estos tipos votos son considerados votos válidos. Este detalle es incide, como se comentará más adelante, sobre el umbral mínimo de votos para el reparto de escaños. Cabe comentar que, según la Legislación Electoral para las Elecciones Europeas (apartado de España), los partidos reciben una subvención de 3 millones de pesetas (Unos 18030 Euros) por escaño, y 100 pesetas (60 céntimos de euro) por voto recibido.
Antes de eso hay que aclarar el efecto del voto en blanco. Mientras que el voto nulo y la abstención quedan atrás, el voto blanco llega a las semifinales del proceso. Y afecta en un aspecto clave: determina el umbral mínimo de votos válidos. El voto en blanco presenta posturas a favor y en contra. No entraré en ese detalle, que cada cual valore.
Sobre los enlaces anteriores, vale la pena comentar algo: creo que el cálculo que se realiza en el enlace en contra del voto en blanco es incorrecto, aunque su valoración final es correcta.
Según el caso que comenta: Si hay 10000 votos a partidos y 5000 votos en blanco, el total de votos válidos es de 15000, por lo que el 3% de esta cantidad sería de 450 votos. Esto significaría que los partidos con menos de 450 votos se quedan fuera del reparto de escaños.
Si no hubieran votos en blanco (sólo 10000 votos a partidos), el umbral se situaría en 300 votos. Si esos votos en blanco se dirigieran a partidos (15000 votos a partidos, 0 en blanco) el umbral quedaría en 450 igualmente. Es decir, el voto en blanco afecta al umbral mínimo de votos como si fuera otro partido, pero luego se descarta en el reparto de escaños.
El 3% parece poco, pero ahora hay que mirar a las consecuencias: ¿A qué partidos afecta más este tipo de voto? el efecto del voto en blanco incide más en los partidos minoritarios. El voto en blanco dice quién pasa a las finales electorales (mis disculpas por utilizar un argot deportivo), que es el reparto de escaños según los votos recibidos por los partidos.
Este 90% obedece a un caso más práctico, ya que el 10% de votos a partidos quedaría repartido entre partidos, pero es una cifra orientativa, no exacta. Para ser exactos, por encima del 97% de votos todos los partidos quedarían fuera. Considerando 15000 votos válidos, si 14550 fueran en blanco, ningún partido llegaría al reparto de escaños.
Entre los dos extremos (minoría de votos en blanco, y mayoría de votos en blanco), se puede aplicar una técnica habitual en economía: el análisis de sensibilidad. El objetivo es entender cómo afectan los cambios graduales (en este caso el total de votos en blanco) sobre el resultado final.
Si simuláramos un aumento gradual en los votos blancos, veríamos que los partidos menos votados van cayendo de la lista de finalistas. La lista de descartados aumentaría, hasta llegar al extremo comentado antes: no hay partidos que superen el umbral del 3%.
Pero ojo: antes de eso, podría darse un caso extremo: que sólo el partido más votado superara el 3% y contara en el reparto de escaños (por lo que se quedaría con todos los escaños) Esta situación revela la principal consecuencia del voto en blanco: perjudica primero a partidos minoritarios, y luego, gradualmente, a partidos más votados.
Como efecto derivado de lo anterior, y siempre a efectos de reparto de escaños, el voto en blanco equipara el voto a partidos minoritarios (que no llegan al 3%) al de la abstención o el voto nulo.
El proceso de reparto de escaños obedece a una proporcionalidad. Si convertimos los votos absolutos en porcentajes de votos (con mucha precisión en los decimales de los porcentajes), el resultado es el mismo. Esto lleva a concluir que el reparto de escaños es un juego cerrado de suma cero: un voto hacia un partido es un voto menos para el resto. Eso sí, su peso depende del total de votos. Por lo tanto, cuantos más votos quedan fuera del reparto, más importancia tiene un peso adicional.
Esta consecuencia, en el contexto de alta abstención que están presentando las elecciones europeas, tiene un efecto muy importante. Esto también afecta a la importancia del voto en blanco: cuando el total de votos a partidos es menor de lo habitual, cada voto a un partido cuenta mucho más, y cada voto en blanco hace más probable el descarte de partidos minoritarios.
may. 4
2009
Para desmitificar este término ,los autores proponen utilizar el término trance como sustituto y así eliminar prejuicios.
¿Qué es el trance? Entrar en trance no es algo que requiera un gran aprendizaje ni técnicas espectaculares. De hecho, el trance tal como lo exponen los autores es algo que sucede mucho más a menudo de lo que nos parece. Si has conducido y durante un rato tu mente se ha evadido, has entrado en trance. Si has perdido el hilo de la conversación, has entrado en trance. El hecho de hacer algo queriendo pero sin ser totalmente conscientes nos traslada al estado de trance. Sólo es eso.
Milton Erickson utilizaba la hipnosis para inducir el trance en sus pacientes. Lo que consiguió Erickson fue utilizar ciertos patrones del lenguaje para que las personas entraran en estado de trance. Estos patrones provocan una especie de cortocircuito en nuestra consciencia: aprovechan puertas traseras que dan acceso directo al inconsciente.
Sorprende que este proceso de entrada en trance es algo que hayamos vivido todos... si te contaban cuentos en la infancia. Frases ambiguas como érase una vez... o Hace muchos años en un país muy lejano... desbordan la capacidad consciente de un niño, igual que nos desborda el concepto de infinito cuando tratamos de representarlo. Para tratar de resolver ese desbordamiento, el inconsciente se activa para dar una respuesta plausible.
La primera conclusión de todo esto es que hemos crecido hipnotizados . La segunda, como apuntan los autores, es que la poesía es una gran fuente de términos que inducen al trance.
El modelo de Milton se basa en generalizar. Es decir, ascender en las categorías de nuestros modelos mentales. El objetivo de la generalización es relajar el contexto de unos valores. Con esta generalización la parte consciente del individuo se ve desbordada en la capacidad de concretar y deja paso al inconsciente. Explicar este proceso en dos frases lo muestra como algo superficial, por eso recomendaría a los interesados una lectura más a fondo sobre el tema.
Para conseguir este objetivo, el modelo Erickson propone utilizar formas de lenguaje explícitamente difusas, que se resumen en la siguiente serie de patrones:
Otro de los conceptos interesantes deducibles del modelo Erickson es el Isomorfismo: dos elementos que actúan igual a nivel externo pero que tienen un contenido diferente son isomórficos. El término isomorfismo parece algo lejano al lenguaje, pero tiene una relación muy directa: si hablamos de metáforas, fábulas y cualquier recurso estilístico que represente una analogía en la relación Imagen-Representación, estamos utilizando un isomorfismo.
En la lista anterior algunos de los puntos son aplicables casi de forma exclusiva en la comunicación sonora, pero en otros casos los patrones son plenamente aplicables a cualquier forma de comunicación, incluyendo la escrita.
Me parece curioso comprobar las analogías que existen entre los patrones del lenguaje que inducen al trance, y el estado de ambigüedad, tanto terminológica como sintáctica. Parece que el proceso de aprendizaje y el trance corren paralelos. Recibimos una información que intentamos manejar para conceptualizar y contextualizar, y resulta que la ambigüedad bloquea nuestros engranajes conscientes. Si la información se puede desambiguar, aprendemos; en caso contrario, quizá entramos en trance.
Trasladando este proceso de "trance" a la recuperación de la información, se sabe que la ambigüedad (y la generalización) genera mayor exhaustividad que precisión (muchos resultados, poco precisos). Si el buscador fuera humano, su trance se traduciría en verborrea, como si fuera un diálogo interno.
Las técnicas de desambiguación de los lenguajes documentales tratan de resolver ese ruido, porque se espera que el modelo cognitivo del individuo y el índice del sistema sean suficientemente similares. Lo que sucede actualmente es que esta circunstancia no es habitual (exceptuando a profesionales recuperando en base a lenguajes controlados), y especialmente cuando se utilizan los buscadores generalistas del entorno web. La cantidad ingente de información oculta un poco esa situación, pero muy pocas veces tenemos la certeza que una búsqueda nos aporta el documento más relevante.
Aplicando el modelo de Erickson a los buscadores, quizá "hipnotizar" a los buscadores permita mejorar la recuperación, utilizando un proceso inverso al actual: ambiguar para crear situaciones de serendipia o simplemente de interacción del usuario. En base a los estudios realizados en la recuperación, parece que hay una analogía interesante entre los niveles del modelo Erickson y el modelo estratificado de Saracevic. Uno y otro caminan en sentidos contrarios, pero quizá se pueda encontrar un punto de intersección entre ambos y abrir vías para introducir mejoras en algoritmos.
Las búsquedas ambiguas del usuario (y no el documento ni el algoritmo) pueden ser vías para diagnosticar los desórdenes (por ambigüedad) en el índice del buscador. Desde luego, esto último no es tarea del propio usuario, sino de la mejora continua de los algoritmos.
Como en otros casos, la inversión de criterios (ambiguar en vez de concretar) puede aportar vías alternativas de análisis para responder algunas cuestiones que los análisis clásicos, basados en criterios de consciencia y coherencia, quizá no puedan resolver.
Para muestra un botón: las palabras vacías son teóricamente un engorro para la recuperación de información desambiguada, pero pueden ser un recurso muy interesante para detectar el idioma de un documento. Dada su constante presencia en el texto, pueden incluso ayudar a detectar fragmentos de texto con un idioma distinto al general del documento. La detección del idioma forma parte de la indexación y no de la recuperación, pero afecta a la relevancia.
La ambigüedad en la búsqueda trata de perseguir un objetivo similar: destilar factores de relevancia distintos al que nos aporta el contenido. No se van a resolver en el mismo momento de la recuperación (si lo que queremos es que el usuario desambigüe, ya existe la opción de recibir el feedback del usuario), sino que mejoraran el proceso de indexación.
Read more »
abr. 6
2009
Son dos años, dedicados a encontrar momentos para escribir algo que pueda interesar a los más o menos 25 lectores de mis feeds y a los visitantes ocasionales del sitio.
Dos años que han ido evolucionando para encontrar un tono y unos temas de interés que puedan ser tan originales como sea posible, ya sea por la temática o por el enfoque.
Fruto de esto, el blog a crecido. Con humildad desde luego, pero al menos uno tiene la sensación que ya tengo datos suficientes para saber qué distancia hay que recorrer entre lo que puede interesar a otros y lo que me interesa a mí.
Desde que cambié el diseño los indicadores básicos han crecido. Comparando este último mes con la misma época del año pasado, el crecimiento también es palpable. Todos los indicadores han mejorado positivamente Por ejemplo:
Tomados los datos así la verdad es que el crecimiento parece bueno. Echando un vistazo a los datos, creo que valdría la pena evaluar estas cantidades descartando las visitas que han durado menos de 20 segundos: de este modo se reduce mucho el número de páginas vistas, pero aumenta bastante el tiempo medio por página y el número de páginas vistas (al final, el objetivo es que la lectura sea interesante, y que sea de uno o más artículos).
Una parte de las mejoras las atribuyo al cambio de diseño, que permite una mejor navegación entre apartados, de modo que mejora ligeramente el número de páginas vistas. Estoy bastante convencido que este diseño evolucionará un poquito más a nivel de navegación, y bastante más a nivel de funcionalidades, pero dado que este blog es un proceso a largo plazo, mejor no avanzar eventos.
El otro detalle que seguramente ha provocado el aumento de visitas es el mayor ritmo de publicación (el año pasado dejé de publicar por exceso de trabajo y eso se notó).
Pero lo que sí provoca un efecto positivo es el del enlace desde otros blogs, y aquí (una vez más) merece mención aparte la recomendación de Yusef (gracias), que ha dado visibilidad al artículo. Lo mejor es comprobar que existen fuentes que, como la suya, tratan (con humor, que no falte), la importancia de entender a utilizar los datos y las herramientas estadísticas para mejorar el entendimiento de lo que nos rodea.
últimamente me he aficionado a comentar temas relacionados con la estadística, dándoles un enfoque más llano e informal. Internet es una fuente más que suficiente para los contenidos formales en estadística, aunque desde luego hay que saber filtrar las fuentes.
La razón por la que escribo sobre este tema es que, de los tres temas principales que trato habitualmente, la estadística es la que acostumbra a presentar una mayor barrera de entrada.
Por ejemplo, la informática puede generar rechazo, pero hay infinidad de posibilidades y necesidades que dan la oportunidad de perderle el miedo y ganar tiempo. Lo mismo sucede con la documentación: un edificio conceptual dirigido a organizar contenidos tiene sentido cuando tomamos conciencia del tiempo quer perdemos leyendo blogs, y luego buscando los artículos que nos interesaban.
Eso no significa que deje de lado el resto de temas. Mi principal objetivo es encontrar temas que combinen dos o más disciplinas, ya que creo que de este modo se crean más puntos de acceso al aprendizaje.
Cada día que pasa sigo pensando que las tres disciplinas se interrelacionan formando un cruce de caminos muy fértil, especialmente por la lluvia de datos que cae sobre nosotros en la actualidad.
Así que siguiendo adelante, es probable que me centre durante un tiempo en explicar los cuatro conceptos clave de la estadística, para luego poder utilizar esta base en artículos relacionados con los otros temas. Siempre con más ánimo didáctico que formal, por si a alguien le interesa.
Read more »
mar. 11
2009
Con el cambio, los datos se transfieren con una estructura equivalente a la que podría incluir una matriz de datos, para luego ser capturados e interpretados por el archivo SWF en el navegador.
La opción de crear una biblioteca alternativa a las ya existentes puede tener sentido por cuestiones de simplificación. Por ejemplo, en la versión PHP5 de la biblioteca las funcionalidades se encuentran disgregadas en varias clases y archivos. Quizá esta estructura tenga sentido en el futuro para albergar gran cantidad de configuraciones, pero actualmente parece excesiva. Por otro lado, las aplicaciones potenciales de la biblioteca en un caso concreto pueden ser muy concretas, con lo que simplificar el código del servidor puede reducir levemente el tiempo de carga (esto se puede notar en sitios con altas tasas de tráfico, no en el resto).
Actualmente casi todos los tipos de gráficos comparten una gran cantidad de las caracterÃsticas de configuración, mientras que sólo en algunos casos concretos se utilizan atributos o estructuras de valores diferentes. Esto dice mucho en favor de la parte cliente (el archivo SWF Flash que se inserta en la página para mostrar el gráfico) de OFC, pero poco en favor de la parte servidor (la biblioteca PHP5 al menos). De todos modos esta crítica es muy relativa: creo que se trata de una visión de futuro por parte del creador del proyecto, que se verá en versiones posteriores. Hay que tener algo de paciencia.
Muchos de los atributos de configuración de cada gráfico son comunes, entre los cuales podemos encontrar los siguientes:
Por otro lado, OFC2 sigue siendo una biblioteca sencilla en cuanto a la variedad de gráficos que se pueden utilizar, aunque han mejorado. También hay que decir que con esta nueva versión parecen sentarse buenas bases para el desarrollo de una herramienta completa y potente. Por lo tanto, habrá que esperar a nuevas versiones para ver más tipos de gráficos.
Read more »© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.