A blog about data, information and IT, by Mario Alberich

May 26
2007

Utilizando Yahoo! Pipes

Lo primero que gusta del espacio reservado es que el entorno de diseño es muy parecido a un entorno visual de trabajo en entorno escritorio, aunque la velocidad se nota. Esta es quizá la única característica que no me ha gustado, aunque eso no es una cuestión de desarrollo del entorno, sino sobre el debate de si la proxima generación de aplicaciones en red se desarrollarán en el navegador con lenguajes de script o fuera de éste.

Volviendo al tema, empiezo a trastear en las opciones que aparecen en la columna izquierda del entorno de diseño. Para empezar, decido seleccionar la mayoría de mis feeds.

Dentro de mis fuentes decido hacer tres grandes diferenciaciones según el comportamiento de tales recursos:

  • Fuentes que tienen poca producción de contenidos pero que acostumbran a ser de gran calidad.
  • Fuentes que no tienen un control directo de nadie y que tienen una producción relativamente baja, con algún riesgo de spam. Estas fuentes son principalmente Archivos de sindicación de tags de del.icio.us
  • Fuentes que tienen un alto volumen de producción y que presentan problemas de ruido, especialmente porque incluyen contenidos de muchas áreas.

El principal interés de la tercera tipología (que básicamente viene representada por digg.com y meneame.net) es que acostumbran a ser sitios en los que las nuevas noticias suben muy rápidamente.

Empezando por el final, éste es un pantallazo de lo que ha acabado siendo mi tubería:

Muestra de Yahoo! Pipes

El proceso ha pasado por:

  • Poner cada una de las tres categorías de feed en un widget Fetch Feed. Eso se puede hacer facilmente clicando sobre el botón con signo "+" que hay en la parte superior izquierda del widget.
  • Para los casos de digg.com y meneame.net, cada uno va en un elemento Fetch Feed.
  • Para el caso de digg.com he dirigido las noticias a un filtro para que me elimine todas las entradas que coincidan con al menos una de las siguientes condiciones (el objetivo es descartar noticias sobre consolas y juegos):
    • Se ajuste a la expresión regular "game.*" (Es decir, todo lo relacionado con juegos).
    • Se ajuste a la expresión regular "Wii|PS3|PS2|Xbox".
  • Para el caso de meneame.net, el caso es un poco diferente. Será por proximidad pero lo cierto es que el efecto ruido de su feed es bastante más moderado. En cambio, las noticias sobre política y especialmente en relación a noticias del periódico "El mundo" (no me refiero a las noticas que lleve el diario, sino a las noticas que hablan Sobre el diario) me agobian (no las leo). En este sentido, pongo los siguientes criterios de bloqueo:
    • Eliminar toda noticia que incluya los términos PP, PSOE, Aznar, Zapatero o Rajoy
    • Eliminar la noticia que incluya la expresión "el mundo".

Soy consciente que lo último es crítico, pero cabe pensar que si se está hablando del mundo en cuanto globo terráqueo y no del diario, aparecerá algo en Digg o en otras partes. Eso es una especulación pero de momento lo dejo ahí.

Una vez definido el proceso de filtro he filtrado para que elimine las noticias repetidas, y también que me lo ordene por fecha. Esto último me parece interesante para poder ver con calma la evolución de las noticias: dado que se recogen todos en un mismo momento, queda claro dónde ha aparecido en primera instancia la novedad.

Como resultado final, comentar que el archivo RSS devuelve más de 400 resultados. Para ser un primer intento no está mal, porque de hecho se está recogiendo información de más de 30 fuentes, dos de las cuales muy intensivas.

Como mejora, comentar que mi agregador recibe los feeds en formato HTML mostrando el código fuente y no el contenido formateado. Probablemente esto se deba a algún error de procesamiento de las entidades HTML.

En fin, una experiencia recomendable. Me ha recordado al establecimiento de categorías en base a estrategias de búsqueda, sólo que algo más desarrollado. Desde luego he echado en falta la posibilidad de desarrollar un filtro más avanzado con operadores booleanos y demás. Quizá sea yo que no he llegado al fondo de la cuestión.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.