Internet Archive já recuperou 9 milhões de links errados do Wikipedia

A organização sem fins lucrativos Internet Archive recuperou mais de 9 milhões de links inutilizados do Wikipedia. Os links chamados de “quebrados” da tradução em inglês são aqueles que direcionam para páginas de erro 404 ou o aviso “page not found”. Tais páginas agora estão disponíveis no Wayback Machine, banco de dados da organização que arquiva páginas da internet desde 1996.

Em comunicado oficial, o Internet Archive informou que foram cinco anos de coleta de endereços de cerca de 300 sites da Wikipedia e suas versões em outras línguas. No total, são feitas mudanças em 20 milhões de URLs por semana.

O levantamento foi feito via inteligência artificial. A organização usou um sistema chamado IABot que reconhecia todo link em que fosse encontrado erro. O bot vasculhou páginas da Wikipédia em 22 idiomas diferentes e toda vez que descobria um, trocava pela versão arquivada no banco de dados do Wayback Machine.

Participe do nosso GRUPO CANALTECH DE DESCONTOS do Whatsapp e do Facebook e garanta sempre o menor preço em suas compras de produtos de tecnologia.

Junto disso, a plataforma também conseguiu revisar e trocar os endereços de referência de mais de 6 milhões de links até agora. Os outros 3 milhões foram ajustados manualmente pela própria comunidade, também recuperando as últimas versões em funcionamento pelo banco de dados da Internet Archive.

Para ter uma noção da importância do trabalho, a Wikimedia Foundation, responsável por estatísticas da plataforma, fez um estudo sobre os principais sites de referências na plataforma da Wikipedia. Ou seja, toda vez em que uma pessoa clicava em uma referência ou nova página, a fundação anotava para qual site o usuário era levado.

Página do Wayback Machine (web.archive.org) foi a mais visitada em disparado como link externo (Arte: Internet Arvchive)

De longe, o Wayback Machine foi o link externo mais visitado no período de 10 dias registrado pela fundação. Em média, o banco de dados recebe 25 mil visitas por dia pelos links ajustados pelo IABot.

Aprendizados

O grupo também revela alguns conhecimentos retirados desta experiência. O primeiro é o mais óbvio de que nem todo link da plataforma é de fato confiável só porque está lá. O principal problema, contudo, é que há dois tipos de links: os chamados “rot” são os referentes a quando há uma informação correta, mas o endereço para tal página está errado.

Outro é o chamado “drift”, quando o link ou conteúdo daquela página muda com o tempo e a informação original se perde. Para os pesquisadores, este segundo tipo é o que preocupa, pois o usuário pode achar que está vendo um conteúdo original, quando na verdade está sendo levado para uma outra versão daquela referência. “Não há como o usuário saber se o conteúdo para o qual está olhando não é o mesmo que o editor originalmente queria que fosse”, informa nota.

A organização agora quer criar uma nova ferramenta para aumentar a velocidade de reconhecimento e ajuste dos links com problema.

Fonte: Internet Archive

via Canaltech

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *