La historia tal como llega a Twitter desaparece de internet
ABC Tecnología
MADRID
Recuperar información de webs desaparecidas es posible gracias a
una técnica desarrollada por dos investigadores informáticos de la Universidad
de Old Dominio en Norfolk, Virginia.Según los estudios llevados a cabo por Hany SalahEldeen y Michael
Nelson durante varios años, la información que se genera cuando
emitimsos un «tuit» desaparece de la web a un ritmo vertiginoso.
En concreto, durante el primer año, se pierden alrededor de un
11% de los recursos publicados; mientras que, en los siguientes años, estos
continúan desapareciendo a razón de un 7,3% por año. La
mayoría de las webs son archivadas, pero existe un buen número de ellas a las
que no se les aplica este proceso y desaparecen para siempre.
Con el objetivo de recuperar toda esta información perdida y no
archivada, y especialmente la que se generó a través de las redes sociales
durante la revolución que se produjo en Egipto hace un par de años
con la Primavera Árabe, los dos investigadores de la Universidad
de Old Dominio en Virginia comenzaron a estudiar el modo de hacerlo(informe en PDF, en inglés)
y descubrieron que estas webs se podían recuperar siguiendo las pistas que los
tuits fueron dejando en Internet, como por ejemplo los enlaces que los usuarios
habían compartido o los comentarios que se generaron, entre otros.
Para
realizar el rastreo, SalahEldeen y Nelson utilizaron Topsy, un motor de
búsqueda de Twitter que permite introducir la dirección de un recurso perdido y
devuelve los «tuits» que hacen referencia a esa dirección; lo que se ha
denominado la «firma tuit». A partir de este buscador, los investigadores
extrajeron los cinco términos utilizados con mayor frecuencia y realizaron una
búsqueda en Google.
El resultado fue una lista de potenciales recursos que pueden
servir como sustitutos del recurso perdido. Según los investigadores, que
comprobaron la similitud de estos recursos con webs que no habían desaparecido,
el 41% de los recursos buscados encontró una fuente de
reemplazo con una similitud textual al original del 70%.
En el
futuro, los investigadores quieren mejorar ambos porcentajes, tanto el de
recursos encontrados como el de similitud con el original, y su objetivo es
extender la búsqueda a otro tipo de formatos, como las imágenes y los vídeos.



