abr. 24
2018
En el proceso para encontrar fuentes de datos, es habitual encontrar proyectos que tengan alguna característica excepcional en alguno de sus aspectos: el contenido, la tecnología o la metodología de análisis.
Read more »
abr. 14
2018
Durante los dos últimos años mi actividad se ha ido centrando progresivamente en tareas relacionadas con el tratamiento de datos, y más especialmente con tareas de data engineering. Este cambio también ha supuesto un cambio en mi lenguaje de programación, que ahora es Python la mayor parte del tiempo.
Read more »
sept. 10
2016
Casi dos años han pasado desde el último artículo, pero incluso antes que se publicara, la vida ya me estaba cambiando rápidamente. Vuelvo ahora con algunos cambios, y también consciente que mi tiempo es mucho menor que hace dos años. ¿Por qué este silencio? En una palabra: paternidad. 18 meses tiene la principal responsable de mi falta de tiempo, pero también otros varios cambios que prefería priorizar. Al fin y al cabo mi intención con el blog es disfrutar explicando, y dejar anotadas cosas que de otra manera se me olvidarían.
Read more »
oct. 12
2014
</p>
Read more »
oct. 5
2014
sept. 28
2014
sept. 21
2014
sept. 14
2014
sept. 7
2014
</p>
Read more »
sept. 4
2014
Que MapReduce no es lo último en algoritmos de procesado de datos, es algo conocido por todos. Pero cuando la empresa que inventó MapReduce confirmara que no lo usa desde hace tiempo, siempre es una señal que algo sucede.
Probablemente ha sido una estrategia para levantar un poco de revuelo por el lanzamiento de un nuevo producto. En el auge de las soluciones comerciales basadas en Hadoop, Google ha lanzado el servicio Cloud Dataflow, que viene a ser la competencia del servicio de cloud de Amazon, pero que en su caso se orienta aún más hacia el análisis de datos.
¿Quiere decir eso que Hadoop se va a la cuneta? Probablemente no, pero hay una serie de operaciones de alto valor añadido que no encajan en el proceso por lotes. Ahí es donde entran Spark y Cloud Dataflow.
Aunque el Machine Learning no es por sí mismo un marco operativo que requiera de interacción ni procesado por eventos, sus aplicaciones comerciales sí lo están siendo. Y por su propia naturaleza, encaja mucho mejor en entornos que requieren de algoritmos adaptables a multitud de variables... y a multitud de perfiles de usuarios. En resumen, el machine learning es ideal para arañar más porcentaje de conversión en el embudo de venta.
Pero al margen del Machine Learning, muy probablemente convivan en el campo del análisis de datos ambos enfoques (procesado por lotes y versiones interactivas), junto con muchas más propuestas, como por ejemplo BigQuery y similares. Es desde luego un momento de cierta locura por las nuevas siglas y conceptos que, a través de cierto grado de especialización, intentan sustituir al ya erosionado término "Big Data". Iremos viendo.
Read more »© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.