Google tem novo sistema de indexação

Chama-se Caffeine e é o novo sistema de indexação para o motor de pesquisa Google que consegue, segundo a empresa, mais 50% de eficácia nos resultados obtidos nas buscas.

O novo sistema de indexação permite pesquisar de forma mais rápida nos conteúdos dinâmicos da Web. Para o conseguir, a Google mudou a forma como o índice funciona. No passado, o índice estava organizado por camadas. Ou seja, para atualizar uma camada inferior, os motores do Google percorriam a Web toda à procura de alterações. O índice geral do Google era atualizado de duas em duas semanas. Agora, o processo é diferente. O comunicado oficial da Google explica:

“Com o Caffeine, podemos analisar a Internet por partes e procurar ou atualizar o nosso índice de modo contínuo e global. À medida que encontramos novas páginas ou nova informação em páginas existentes, podemos adicioná-las imediatamente ao índice. Isso significa que quando procurar, vai estar a fazê-lo o mais próximo possível da versão mais recente da informação que pretende – Independentemente de quando e onde foi publicada.”

Entende-se, assim, que o objetivo do Caffeine é conseguir indexar de forma mais célere os conteúdos da Web que são cada vez mais dinâmicos. Para ficarmos com uma ideia das capacidades de indexação deste novo sistema, a Google explica no mesmo comunicado: “O Caffeine processa centenas de páginas em paralelo, a cada segundo. Se fosse uma pilha de papéis teria 5 km de altura (empilhados, indexados e re-empilhados a cada segundo). O Caffeine tem quase 100 milhões de gigabytes de capacidade de armazenamento numa base de dados e acrescenta novas informações inúmeras vezes por dia. Teria que ter 625,000 de Ipods com a máxima capacidade para conseguir armazenar tanta informação. Se esta estivesse toda ligada representaria um total de cerca de 65 quilómetros. Se quisesse fazer a transferência desta quantidade de informação para o seu computador precisava de 1000 ligações de Internet  de alta velocidade ao longo do dia”. 

Fonte: Google tem novo sistema de indexação