A blog about data, information and IT, by Mario Alberich

May 21
2007

Buscando en el escritorio con Linux

La principal diferencia, como digo, es la tecnología. Mientras que Beagle utiliza la biblioteca Mono (el .NET para Linux), Recoll utiliza Xapian, una herramienta que probablemente más adelante comentaré por su posibilidad de ser utilizada desde PHP y otros lenguajes.

La gran fortaleza de Kerry es su facilidad de configuración y su integración con las herramientas de escritorio: En dos minutos estaba indexando documentos, correos electrónicos, posts del agregador de RSS, documentos PDF, Word, ODT,... una maravilla. A falta de darle un uso intensivo, un artículo comenta la posible sobrecarga de Beagle por el uso de .NET, que desde KDE se utiliza con el frontal Kerry.

Después de testear un poco (simple pero eficiente), instalé Recoll para compararlo.

Tuve dos pequeños contratiempos: Debian no tiene el paquete de Recoll en la rama testing, con lo que tuve que descargar el paquete desde la página de los desarrolladores. Aparte de eso, tuve que instalar la biblioteca del motor de búsqueda Xapian (libxapian13), del cual probablemente ya comentaré algo más en otro momento.

Aparte de esto, Recoll debe ser configurado a mano, entrando en el directorio creado en el path del usuario, y editando el archivo recoll.conf según explican en la web de los desarrolladores. No es que sea complicado, pero hay quien tiene miedo a la edición de archivos de configuración.

Una vez iniciado esto, el proceso de rastreo e indexación son equivalentes en uno y en otro. El tiempo de espera no es significativo. Después de indexar los aproximadamente 6000 documentos (en ambos casos se indexan múltiples formatos de documentos: desde HTML hasta PDF pasando por Word y OpenOffice), realicé unas cuantas búsquedas con un número de resultados más o menos amplios.

No lo cronometré pero los resultados sean bastante parecidos.

A escoger entre los dos motores, lo cierto es que me quedaría con Xapian, pero no por cuestiones tecnológicas, sino porque también hay disponible una extensión para PHP que utiliza la API de Xapian (aunque en la documentación de PHP la extensión se llama Muscat, por cuestiones de propiedad de la marca que no vienen al caso). Para el caso de Debian, existen los paquetes php4-xapian y php5-xapian.

 

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.