A blog about data, information and IT, by Mario Alberich

Aug 21
2013

Prediciendo los trending topics de twitter antes que sucedan

Reconozco que afronto con escepticismo los análisis de predicción de tendencias.  Pero la metodología que han seguido, más allá del puro algoritmo matemático, merece mención aparte. Aunque no lo he puesto a prueba, merece mención por los resultados finales:

  • Seguimiento de 500 temas que fueron trending topics y otros 500 que no lo fueron.
  • Predicción del trending topic hora y media antes que twitter.
  • 79% de aciertos.

¿Cómo lo ha abordado?


En una sola palabra: descomponiendo. Ha detectado grupos de tendencias individuales, partiendo de la idea que el trending topic es una suma de varias tendencias dispares.

Esos datos de tendencias se comparan con los patrones que han seguido otros trending topics y con otros que no.  Lo que se hace es básicamente medir las distancias euclidianas entre las diversas curvas (la observada, y las de referencia).

También hay otro aspecto agradable del enfoque: el análisis es no-paramétrico.  Básicamente esto quiere decir que las tendencias de referencia no son un modelo matemático con parámetros, sino datos sobre los cuales no requerimos realizar estimaciones nada. Datos en su estado más puro. Elegancia hecha algoritmo.

Según su autor, la aplicación de este trabajo puede ir más allá de los trending topics. Esperemos que así sea.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.