La historia tal como llega a Twitter desaparece de internet

ABC Tecnología

MADRID

Recuperar información de webs desaparecidas es posible gracias a una técnica desarrollada por dos investigadores informáticos de la Universidad de Old Dominio en Norfolk, Virginia.Según los estudios llevados a cabo por Hany SalahEldeen y Michael Nelson durante varios años, la información que se genera cuando emitimsos un «tuit» desaparece de la web a un ritmo vertiginoso.

En concreto, durante el primer año, se pierden alrededor de un 11% de los recursos publicados; mientras que, en los siguientes años, estos continúan desapareciendo a razón de un 7,3% por año. La mayoría de las webs son archivadas, pero existe un buen número de ellas a las que no se les aplica este proceso y desaparecen para siempre.

Con el objetivo de recuperar toda esta información perdida y no archivada, y especialmente la que se generó a través de las redes sociales durante la revolución que se produjo en Egipto hace un par de años con la Primavera Árabe, los dos investigadores de la Universidad de Old Dominio en Virginia comenzaron a estudiar el modo de hacerlo(informe en PDF, en inglés) y descubrieron que estas webs se podían recuperar siguiendo las pistas que los tuits fueron dejando en Internet, como por ejemplo los enlaces que los usuarios habían compartido o los comentarios que se generaron, entre otros.

Para realizar el rastreo, SalahEldeen y Nelson utilizaron Topsy, un motor de búsqueda de Twitter que permite introducir la dirección de un recurso perdido y devuelve los «tuits» que hacen referencia a esa dirección; lo que se ha denominado la «firma tuit». A partir de este buscador, los investigadores extrajeron los cinco términos utilizados con mayor frecuencia y realizaron una búsqueda en Google.

El resultado fue una lista de potenciales recursos que pueden servir como sustitutos del recurso perdido. Según los investigadores, que comprobaron la similitud de estos recursos con webs que no habían desaparecido, el 41% de los recursos buscados encontró una fuente de reemplazo con una similitud textual al original del 70%.

En el futuro, los investigadores quieren mejorar ambos porcentajes, tanto el de recursos encontrados como el de similitud con el original, y su objetivo es extender la búsqueda a otro tipo de formatos, como las imágenes y los vídeos.