A blog about data, information and IT, by Mario Alberich

Sep 04
2014

Big data y machine learning, del batch al procesado por eventos

Que MapReduce no es lo último en algoritmos de procesado de datos, es algo conocido por todos. Pero cuando la empresa que inventó MapReduce confirmara que no lo usa desde hace tiempo, siempre es una señal que algo sucede.

Probablemente ha sido una estrategia para levantar un poco de revuelo por el lanzamiento de un nuevo producto. En el auge de las soluciones comerciales basadas en Hadoop, Google ha lanzado el servicio Cloud Dataflow, que viene a ser la competencia del servicio de cloud de Amazon, pero que en su caso se orienta aún más hacia el análisis de datos.

¿Quiere decir eso que Hadoop se va a la cuneta? Probablemente no, pero hay una serie de operaciones de alto valor añadido que no encajan en el proceso por lotes. Ahí es donde entran Spark y Cloud Dataflow.

Machine learning, la máquina que tira del tren


Si hay ahora mismo un área que esté empujando en esa dirección, se trata del Machine Learning (véase también Deep Learning).  El conjunto de algoritmos y métodos, mezcla de estadística e inteligencia artificial, se está introduciendo cada vez con más fuerza en áreas como la detección de fraude, mecanismos de personalización y gran cantidad de operaciones que requieren un tiempo de respuesta menor. En otras palabras, para las que no sirve el proceso batch no iterativo.

Aunque el Machine Learning no es por sí mismo un marco operativo que requiera de interacción ni procesado por eventos, sus aplicaciones comerciales sí lo están siendo. Y por su propia naturaleza, encaja mucho mejor en entornos que requieren de algoritmos adaptables a multitud de variables... y a multitud de perfiles de usuarios. En resumen, el machine learning es ideal para arañar más porcentaje de conversión en el embudo de venta.

Pero al margen del Machine Learning, muy probablemente convivan en el campo del análisis de datos ambos enfoques (procesado por lotes y versiones interactivas), junto con muchas más propuestas, como por ejemplo BigQuery y similares.  Es desde luego un momento de cierta locura por las nuevas siglas y conceptos que, a través de cierto grado de especialización, intentan sustituir al ya erosionado término "Big Data". Iremos viendo.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.