A blog about data, information and IT, by Mario Alberich

Jul 03
2007

La veracidad de la información en Internet, a debate

Otro de los focos de polémica que he leído esta semana me ha llegado desde Apophenia, el blog de Danah Boyd, (muy recomendable para todos los aspectos relacionados con comunidades virtuales: vale la pena echar un vistazo a su listado de publicaciones y papers), que actualmente trabaja en Yahoo! y se encuentra muy implicada en los fenómenos Friendster y MySpace.

En su blog, Danah comenta un comentario de Michael Gorman, nada más y nada menos que el presidente de la American Library Association en los años 2005-2006, y primer editor de las AACR en 1978 (así que este es el responsable...). Los comentarios que hace McGorman son:

  • The sleep of reason, (parte I, parte II): Donde McGorman equipara los sueños de la razón de Goya a lo que sucede en Internet, argumentando sobre la falta de calidad de los procesos de producción electrónica actuales, y afirmando que lo necesario no es tanto el seguir manteniendo las publicaciones en papel, sino el incorporar en los procesos de publicación en Internet los criterios de fiabilidad del mundo editorial tradicional.
  • The siren song of the Internet (parte I, parte II): Expone cómo la sencillez de uso de herramientas como Google están dejando de lado aspectos importantes relativos a la propiedad intelectual, plagio, y a la mediocridad por el hecho de descartar todo aquello que no tiene un buen ranking en los resultados de búsqueda.
  • Jabberwiki, the educational response, (part I, part II): Comenta la relación entre los profesionales de la educación y su rigor o permisividad en el uso de fuentes de información, y la introducción de hábitos de búsqueda de información que incluyan recursos más especializados.

Los comentarios de los artículos son mucho más cortos de lo que merecería un buen resumen, pero no tenía esta intención, sino situar la respuesta de Danah Boyd, que no tiene pelos en la lengua. Resumiendo:

  • Empieza expresando su frustración por lo que su vida académica le ha acabado demostrando: que no todo catedrático o miembro de la comunidad académica es todo lo competente que se puede esperar. Ello incluye una crítica a la opinión que la cultura americana es meritocrática (en su opinión, no lo es).
  • Reconoce su pasión por Wikipedia, el placer que le supone hallar buenos artículos, y en especial la auto-aceptación del sitio en cuanto que está en continua evolución.
  • Argumenta que la información no puede ser congelada y servida para el consumo, tal como han tratado de defender las entidades editoriales.
  • También discute la figura de autoridad de publicación (quién decide qué, cómo y cuándo se publica).
  • Matiza en las razones del cambio: Internet es un medio, como el papel. Y por lo tanto es posible escribir basura tanto en Internet como en el papel. Lo que cambia son los criterios de producción y distribución, [y que eso es algo que no gusta a la industria editorial: no es una afirmación literal, sino un interpretación mía].
  • Concluye preguntándose el por qué todos los intelectuales que critican la Wikipedia no se ponen manos a la obra para mejorarla. También se pregunta cuáles son las razones por las que no se explica la dinámica de un sistema de colaboración tan amplio.

El debate de la producción de contenidos

Como se ve, lo que por un lado se interpreta como el problema de la autoridad, por el otro se enfoca como una cuestión de poder de decisión en la publicación. Es un debate que entra de lleno en el derecho de copyright, el control bibliográfico, la producción y distribución, ISBN, IBSN, DOI,...

Personalmente estoy del lado de Danah Boyd. Me pregunto qué pasaría si yo quisiera publicar lo que he puesto aquí. En el fondo cada cual es libre de leerlo. Por las estadísticas de clicks y demás, veo claro que muchas veces se hace más uso a los enlaces que pongo a lo largo del texto, que al contenido en sí.

Pero eso no me preocupa: en esencia este blog es mi aportación, y como muchas publicaciones, puede quedarse aparcada. La diferencia es que en cualquier momento del día alguien puede hacer uso de esto. Sé que si alguien quiere profundizar el el tema que propongo, puede buscar en otra parte. Si algún día quiero publicar en una revista especializada, trataré de cumplir los criterios de calidad que me establezcan. La diferencia entre uno y otro no es la implicación por redactar algo bueno, sino los criterios de consenso para acceder a este documento.

Quizá porque en los últimos tiempos se ha visto triunfar el movimiento del software de código abierto, no hay que dejar pasar que la publicación tiene un coste. La Budapest Open Access Initiative lo deja muy claro: investigar y publicar cuesta tiempo y dinero, con lo que si no cobras al lector final de tu publicación, deberás buscar ingresos por otro lado. O eso, o te dedicas en tu tiempo libre.

En el momento de decidirse a publicar, la diferencia entre el control editorial y la no intermediación pasa por la disponibilidad y accesibilidad al documento: ¿tu blog estará siempre disponible? ¿Un artículo, tendrá siempre un mismo enlace? ¿Y las modificaciones?

Cuando se desea recibir una retribución por esta publicación y se quiere descartar todos los aspectos técnicos, lo mejor es delegar en terceros, sabiendo que probablemente se verificará la calidad del contenido. Décadas atrás, publicar autónomamente era impensable, y por eso el esfuerzo del peer reviewing, el editor y todo lo demás era un trámite para aumentar la visibilidad, pero hoy ya no necesariamente es así.


Identidad, referencia y fiabilidad

Google acertó en el Pagerank, no sólo por sus características matemáticas, sino porque explicita las relaciones de recomendación. El PR da autoridad a los sitios que reciben muchos enlaces: todo el mundo los conoce, y por ello se dan por buenos. En esa época, referencia podía equivaler a identidad.

A pesar de ello, Google apareció en una época en la que los weblogs eran un fenómeno prácticamente inexistente, y que los procesos de publicación aún pasaban por los grandes portales e ISPs, proveedores tradicionales de contenidos que iniciaban sus versiones electrónicas, y poca cosa más. En esa época el motivo de enlace no era significativamente diferente a los que introdujo la web social, pero el criterio estaba bajo un control editorial más tradicional.

Ahora esto ha cambiado, y el software social ha implicado mayor dispersión en la capacidad productiva de contenidos, mayor acceso por parte del público a recursos electrónicos (gratuítos, se entiende) y un alto ritmo de producción. Junto a esto, han aparecido sistemas de indexación no controlados que han introducido la visión personal en la organización de contenidos. Eso no es asimilable directamente por el PR, ya que no se basa en contenidos ni enlaces.

Y es por eso que ahora cabe esperar que la siguiente vuelta de tuerca la den las redes sociales, los microformatos y otros tipos de comunidades y sistemas estructurados de intercambio de información: toda la actividad que se lleve a cabo por usuarios podrá ser estudiada para extraer la relevancia con un valor más personalizado.

Mientras este momento no llega, Google trata de almacenar tanta información como puede sobre los usuarios, aunque desde mi visión más personal, creo que esta información es valiosa para extraer patrones, pero no es la clave para encontrar más productos de éxito.

Por hoy basta, espero que la larga lectura sea a amena y enriquecedora. Creedme si os digo que soy yo quien escribe ;-)

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.