Mas quantas vezes já não deu por si a navegar em busca de informação importante e, ao clicar num link que deseja consultar, é subitamente levado para uma página que já não existe? Este fenómeno, chamado link rot (ou deterioração das ligações, numa tradução livre para português), demonstra o quão ‘frágil’ a Internet pode ser e novos dados levantam mais preocupações.
25% das páginas web criadas entre 2013 e 2023 já não estão acessíveis, porque uma página individual foi apagada ou removida de um website outrora funcional. Esta é uma das principais conclusões de um dos mais recentes estudos publicados pelo norte-americano Pew Research Center.
A tendência é ainda mais flagrante quando se olha para conteúdo online mais antigo. Os dados indicam que perto de 38% das páginas que existiam em 2013 já não estão disponíveis hoje. Por contraste, apenas 8% das páginas que existiam em 2023 já não estão disponíveis.
A equipa de investigadores que realizou este estudo explica que a deterioração digital ocorre em múltiplos espaços online: de ligações em websites governamentais e de notícias às secções de referências em páginas da Wikipédia.
MAIS: NATO planeja transferir o tráfego da Internet para satélites
De acordo com a análise, 23% das páginas noticiosas e 21% das páginas de websites governamentais continham, pelo menos, um link ‘quebrado’ (isto é, não funcional). Já 54% das páginas da Wikipédia continham pelo menos um link na sua secção de referências que levava os utilizadores para uma página que já não existe.
Mas não é tudo: ao analisarem um extenso conjunto de publicações na rede social X (antigo Twitter), seguindo-as ao longo de três meses, os investigadores verificaram que quase um em cada cinco tweets já não estava publicamente disponível.
Em 60% dos casos, as contas que fizeram as publicações tornaram- se privadas, foram suspensas ou eliminadas. Nos restantes 40%, as publicações foram eliminadas por quem as fez, embora as contas se mantivessem activas.
As investigações que têm vindo a ser feitas nesta área ajudam não só a compreender a dimensão do problema, mas também as diferenças que existem entre diversos tipos de conteúdo online. Por exemplo, um estudo publicado em 2021 por uma equipa de investigadores da Harvard Law School, que analisou cerca de dois milhões de links externos em artigos no website do The New York Times desde a sua criação em 1996, revelou que 25% das ligações para conteúdo específico não estavam disponíveis.
A probabilidade de um link não funcionar aumenta com a ‘idade’ dos artigos. Segundo os dados, 72% das ligações que datavam de 1998 não estavam funcionais. Além disso, 53% de todos os artigos analisados com links para conteúdo específico tinham pelo menos um cujo acesso não era possível.
Alguns investigadores que participaram neste estudo já tinham demonstrado em 2014 que metade das ligações encontradas em opiniões judiciais do Supremo Tribunal dos Estados Unidos desde 1996 já não funcionavam. Este estudo, que analisou também o estado dos links usados em artigos académicos publicados na Harvard Law Review, verificou que 75% destas ligações estavam deterioradas.
Já nas redes sociais, um artigo publicado em 2012, a propósito da segunda conferência internacional sobre teorias e práticas em bibliotecas digitais, dava conta que, nas plataformas mais populares, 11% das publicações eram perdidas e 20% arquivadas no prazo de um ano. Em média, 27% eram perdidas e 41% arquivadas após dois anos e meio.
Tentar mitigar um problema com esta dimensão não é uma tarefa fácil. No entanto, existem projectos que querem fazer a diferença, como as iniciativas de preservação digital. Uma das mais conhecidas é a do Internet Archive com o seu WayBack Machine, que, até à data, tem um extenso arquivo com 835 mil milhões de páginas web.
O International Internet Preservation Consortium (IIPC) agrega entidades de todo o mundo que colaboram para preservar os conteúdos online. Estes projectos desempenham um papel fulcral para assegurar que o conhecimento, sobretudo aquele que existe apenas em formato digital, se mantém vivo.
O link rot (deterioração das ligações) não é um fenómeno novo, mas há medida que a Internet evolui, prolifera-se silenciosamente, colocando em risco toda a informação e conhecimento online que não esteja devidamente preservado. A resolução deste problema não é fácil, mas há iniciativas que estão a apostar na preservação digital como forma de o mitigar.