A blog about data, information and IT, by Mario Alberich

Apr 30
2007

Sitios sociales atacados por el spam... o la caquita del perro del vecino


El usuario no es un buen indicador de spam

Probablemente la característica diferenciadora de Connotea (pongamos que respecto a del.icio.us, por ejemplo) sea que tiene detrás un grupo editorial muy potente. Eso es algo que supongo que se toman muy a pecho los responsables del sitio: ¿Connotea debería ser el sitio escogido por científicos para organizar sus enlaces favoritos? Alguien les ha contado al grupo Nature lo que es la web 2.0?

Yo me lo imagino así: alguien decide montar una plaza pública donde los usuarios se supone que pueden entrar, y realizar una serie de actividades bajo una serie de condiciones de uso. Bueno, hasta ahí todo perfecto... El problema es que alguien entra con un perro que... se hace caquita. ¿Y ahora qué? Dónde queda lo de web social? Alguien saca a relucir los términos y condiciones del sitio (ese texto que casi nadie lee) para eliminar la cuenta del usuario.

Vale: cuenta eliminada. El usuario perrito43 borrado. Uy! Se ha dado de alta perrito44 que... también se ha hecho caquita.

Da igual si perrito43 y perrito44 son el mismo usuario. Ahora resulta que sabemos lo que no nos gusta, y por lo tanto podemos filtrar de un modo u otro lo que otros usuarios filtran en el portal en concreto. Pero jamás lo podremos hacer en tiempo real, y en cualquier caso, no saldrá rentable. Así que no hace falta que nos agobiemos tanto por este tema.

En el fondo, lo que hay que tener en cuenta en los términos y condiciones del sitio es que los responsables del matenimiento no se pueden hacer responsables del contenido que ponen sus usuarios. Y también poner a disposición de otros usuarios la posibilidad de reportar enlaces con contenidos poco éticos o... malolientes.


Reutilizar tecnología digital puede no ser ecológico, pero sí útil

Lo que sí es importante es saber reutilizar la tecnología que existe para el spam. Así, si disponemos de sistema de detección de spam para el correo electrónico, qué tal si lo utilizamos para reportar la posibilidad de spam en enlaces añadidos en los servicios de favoritos?

Desde luego el criterio del número de destinatarios no es válido, pero sí que lo puede ser la relación entre el contenido del título del favorito, los tags utilizados, y el contenido final de la URL de destino. Si a eso sumamos el usuario que ha originado el enlace, ya tenemos suficientes indicadores para mejorar la tasa de spam que pueda generar un usuario concreto,

Por lo que he comprobado en del.icio.us, el secreto está en no superar un número máximo de enlaces spam para una etiqueta determinada. Parece que luego pasas desapercibido.

Probablemente la siguiente evolución podrá ser el uso de arañas para inspeccionar el contenido del enlace añadido al sistema, para determinar el nivel de relación entre las etiquetas y el contenido indexado. Desde luego, el sistema deberá detectar la diferencia de idiomas entre las etiquetas y el recurso, pero dado que las palabras indicadoras de spam pueden ser fácilmente reconocibles, es posible que con un tiempo relativamente corto de ajustes, el sistema pueda empezar a tener buenos resultados en procesos de filtraje.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.