A blog about data, information and IT, by Mario Alberich

Apr 29
2014

#MapReduce: probar en #linux antes de ejecutar en #Hadoop

Diez años de MapReduce


En Diciembre se cumplirán diez años desde que Google publicó el paper sobre MapReduce. El objetivo de ese artículo era exponer un algoritmo para procesar paralelamente grandes cantidades de datos utilizando una infraestructura basada en equipos informáticos modestos, y que por ello fuera más fácilmente escalable.

Diez años más tarde MapReduce se encuentra en el núcleo del BigData, especialmente a través de Hadoop.  Todas o casi todas las grandes compañías que ofertan bigdata ofrecen algún tipo de implementación de Hadoop a sus clientes.

Pero Hadoop es una implementación que no sólo incluye un algoritmo, sino también un sistema de archivos (Hadoop Filesystem, HDFS, basado a su vez en el Google File System, GFS) y todos los mecanismos de control necesario para llevar a cabo el tratamiento de datos a gran escala.

Entonces, si lo que queremos es entender el cambio de paradigma que supone MapReduce para tratar datos, ¿Necesitamos instalar Hadoop o un similar para entender el funcionamiento de MapReduce? Si lo que quieres probar son tus scripts con un pequeño conjunto de datos, no.

Consola y pipes


MapReduce tiene como base de funcionamiento el traspaso de información entre los procesos mediante pipes, lo que permite evitar el almacenamiento de datos en la memoria del proceso. Por ello, los scripts deben basarse en capturar la información del STDIN, y retornar la información a través del STDOUT. Si por ejemplo los datos están en un archivo CSV, podemos volcar el contenido con el comando cat (o head, o tail para sólo enviar un subconjunto de datos), enviándolo con un pipe a nuestro script de mapeo:

cat archivo.csv | ./mapper.php

Entonces, el script mapper.php debería abrir el flujo de datos recibidos a través de STDIN para empezar a procesarlo:

#!/usr/bin/php
$stdin = fopen( 'php://stdin', 'r' );

while( $line = fgetcsv( $stdin, 10000) ) {
// Procesar/mapear los datos y ejecutar un echo sprintf:
echo sprintf("%s\n", $line[0]);
}
?>


No añado ningún tipo de control en el script anterior, para ponerlo lo más simple posible. El script anterior imprime el contenido de la primera columna del archivo CSV.

En el caso del script de reducer (reducer.php), lo que haremos es contar cuántas veces aparece cada cadena en el listado (es decir que ignoraremos el valor numérico).  El script es bastante similar al del mapper, pero ahora mantendremos un contador de las veces que aparece la clave, y cuando ésta cambie, la imprimiremos:

#!/usr/bin/php
$stdin = fopen( 'php://stdin', 'r' );
$currentKey = null;
$currentCount = 0;
while( $line = fgets( $stdin ) ) {
// Generas el proceso de 'reducción'
if ($line !== $currentKey) {
echo sprintf("%s\t%s\n", $currentKey, $currentCount);
$currentKey = $fields[0];
$currentCount = 0;
}
$currentCount++;
}
if ($currentKey !== null) {
echo sprintf("%s\t%s", $currentKey, $currentCount);
}
?>

Vale, entonces ya tienes mapper.php y reducer.php. Para simplificar mucho, sólo queda un paso intermedio entre el mapper y el reducer: la ordenación de los registros recibidos (la parte Sort de lo que se denomina el Shuffle and Sort del algoritmo). Para que el reducer pueda calcular las veces que aparece cada clave, debe recibir los datos ordenados según esta clave. Para el caso que nos ocupa, lo podemos conseguir con el comando sort de Linux, no hace falta que nos compliquemos más.

Ejecutando el proceso conjunto


Un paso más antes de probar: para poder ejecutar los dos scripts php desde la línea de comandos es necesario marcarlos como ejecutables:

chmod +x mapper.php reducer.php

Todo a punto.  Poniéndolo todo en orden, tenemos que el comando sería:

cat archivo.csv | ./mapper.php | sort | ./reducer.php

Y, reducer.php debería generar una salida con los datos procesados (en este caso, un contador de la frecuencia de cada clave). Así que a grandes rasgos, esto es lo que plantea MapReduce: un algoritmo que pueda recibir una entrada de datos y que pueda procesarla, de forma independiente al resto del dataset.

El resto de la implementación de MapReduce (replicación de datos, gestión de recursos, partición del dataset, etc.) es imprescindible para operar con un gran conjunto de datos, pero no para entender el concepto de base: procesar datos de forma paralela.

Nota final: Aunque Hadoop requiere el uso de Java para desarrollar trabajos MapReduce, incorpora también una funcionalidad llamada Hadoop Streaming que permite la ejecución de scripts MapReduce en prácticamente cualquier lenguaje de programación. La contrapartida es un mayor uso de recursos y mayor lentitud, pero desde luego ayuda a realizar pruebas sencillas con scripts de PHP, python o similares.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.