A blog about data, information and IT, by Mario Alberich

Apr 29
2014

#MapReduce: probar en #linux antes de ejecutar en #Hadoop

Diez años de MapReduce


En Diciembre se cumplirán diez años desde que Google publicó el paper sobre MapReduce. El objetivo de ese artículo era exponer un algoritmo para procesar paralelamente grandes cantidades de datos utilizando una infraestructura basada en equipos informáticos modestos, y que por ello fuera más fácilmente escalable.

Read more »

Jun 05
2013

Siege: extraer URLs reales de los logs (II)

Con el proceso anterior, ya teníamos las URIs, y nos faltaba añadir el host y el protocolo para tener una URL completa.  Esto se puede conseguir echando mano del comando sed:

Read more »

Jun 03
2013

Siege: extraer URLs reales de los logs (I)

Siege es una herramienta de pruebas de carga, que permite simular el comportamiento de una web bajo condiciones extremas (el asedio del servidor).

Read more »

May 31
2007

Trabajando con subversion y awk

Andábamos esta mañana enchufados al servidor de trabajo y nos ha dado por realizar un pequeño script para exportar pequeñas actualizaciones de algún proyecto sin tener que realizar un svn export del repositorio de subversion.

La solución ha pasado por las siguientes siglas: grep, awk, sort, uniq,... y svn por supuesto.

Te apetece ver cómo?

 

Read more »

May 29
2007

Estudio de usabilidad: por un mejor escritorio

Yo, ejem, debería estar haciendo otras cosas. Lo cierto es que he tenido un recuerdo de esos que si no los apuntalo, se me escapan. Esta entrada es un recordatorio sobre un estudio del que oí hablar, para trabajar en un mejor entorno de escritorio. Lo desarrolló OpenSuse utilizando la versión de GNOME con XGL , aunque después parece que también han hecho estudios sobre KDE.

 

Read more »

May 21
2007

Buscando en el escritorio con Linux

De vez en cuando uno descubre nuevas herramientas en Linux que le ayudan a hacer más fácil las tareas de búsqueda y recuperación de datos cuando no sabe por dónde empezar. Es así como me encontré com Beagle y Recoll, dos herramientas de búsqueda de escritorio disponibles en Linux. Cada herramienta utiliza su tecnología...

 

Read more »

Apr 04
2007

Una partida de Ajedrez entre Windows y Linux

Leyendo las noticias, me topo con un post el en blog de Mercè Molist sobre su metamorfosis linuxera (vía menéame). Me he acordado de una ocasión en la que presencié una buena lección de ajedrez: ¿y si cambias el color de las piezas...?

 

Read more »

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.