Que MapReduce no es lo último en algoritmos de procesado de datos, es algo conocido por todos. Pero cuando la empresa que inventó MapReduce confirmara que no lo usa desde hace tiempo, siempre es una señal que algo sucede.
Probablemente ha sido una estrategia para levantar un poco de revuelo por el lanzamiento de un nuevo producto. En el auge de las soluciones comerciales basadas en Hadoop, Google ha lanzado el servicio Cloud Dataflow, que viene a ser la competencia del servicio de cloud de Amazon, pero que en su caso se orienta aún más hacia el análisis de datos.
¿Quiere decir eso que Hadoop se va a la cuneta? Probablemente no, pero hay una serie de operaciones de alto valor añadido que no encajan en el proceso por lotes. Ahí es donde entran Spark y Cloud Dataflow.
Aunque el Machine Learning no es por sí mismo un marco operativo que requiera de interacción ni procesado por eventos, sus aplicaciones comerciales sí lo están siendo. Y por su propia naturaleza, encaja mucho mejor en entornos que requieren de algoritmos adaptables a multitud de variables... y a multitud de perfiles de usuarios. En resumen, el machine learning es ideal para arañar más porcentaje de conversión en el embudo de venta.
Pero al margen del Machine Learning, muy probablemente convivan en el campo del análisis de datos ambos enfoques (procesado por lotes y versiones interactivas), junto con muchas más propuestas, como por ejemplo BigQuery y similares. Es desde luego un momento de cierta locura por las nuevas siglas y conceptos que, a través de cierto grado de especialización, intentan sustituir al ya erosionado término "Big Data". Iremos viendo.
© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.