A blog about data, information and Tech by Mario Alberich

        

Big data y machine learning, del batch al procesado por eventos

Que MapReduce no es lo último en algoritmos de procesado de datos, es algo conocido por todos. Pero cuando la empresa que inventó MapReduce confirmara que no lo usa desde hace tiempo, siempre es una señal que algo sucede.

Probablemente ha sido una estrategia para levantar un poco de revuelo por el lanzamiento de un nuevo producto. En el auge de las soluciones comerciales basadas en Hadoop, Google ha lanzado el servicio Cloud Dataflow, que viene a ser la competencia del servicio de cloud de Amazon, pero que en su caso se orienta aún más hacia el análisis de datos.

¿Quiere decir eso que Hadoop se va a la cuneta? Probablemente no, pero hay una serie de operaciones de alto valor añadido que no encajan en el proceso por lotes. Ahí es donde entran Spark y Cloud Dataflow.

Machine learning, la máquina que tira del tren


Si hay ahora mismo un área que esté empujando en esa dirección, se trata del Machine Learning (véase también Deep Learning).  El conjunto de algoritmos y métodos, mezcla de estadística e inteligencia artificial, se está introduciendo cada vez con más fuerza en áreas como la detección de fraude, mecanismos de personalización y gran cantidad de operaciones que requieren un tiempo de respuesta menor. En otras palabras, para las que no sirve el proceso batch no iterativo.

Aunque el Machine Learning no es por sí mismo un marco operativo que requiera de interacción ni procesado por eventos, sus aplicaciones comerciales sí lo están siendo. Y por su propia naturaleza, encaja mucho mejor en entornos que requieren de algoritmos adaptables a multitud de variables... y a multitud de perfiles de usuarios. En resumen, el machine learning es ideal para arañar más porcentaje de conversión en el embudo de venta.

Pero al margen del Machine Learning, muy probablemente convivan en el campo del análisis de datos ambos enfoques (procesado por lotes y versiones interactivas), junto con muchas más propuestas, como por ejemplo BigQuery y similares.  Es desde luego un momento de cierta locura por las nuevas siglas y conceptos que, a través de cierto grado de especialización, intentan sustituir al ya erosionado término "Big Data". Iremos viendo.

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.