Google busca e indexa textos de documentos escaneados em PDF

Compartilhe isto com seus amigos!

O maior e melhor buscador do mundo melhorou um pouquinho mais, e agora está com um recurso inédito entre os buscadores:

Busca e indexação de texto em arquivos escaneados para o formato PDF

Isso mesmo, o Google passou a indexar documentos escaneados em PDF nos resultados de busca. Agora, quando você escanear uma página e publicar na web, ela será tratada pelo mecanismo de busca e indexação do Google da mesma forma que uma página de texto comum, ao invés de ser tratada como uma imagem.

Veja abaixo o link e repare no texto “View as HTML”, disponível como um link. Quando você clica nele, aparece a página escaneada, indexada pelo buscador. Caso teste no Yahoo ou no Live Search, da Microsoft, não terá o mesmo resultado:

repairing aluminum wiring

Como o Google faz isso?

Fazendo uso da já conhecida tecnologia de reconhecimento ótico de caracteres, OCR, convertendo a imagem do texto em texto propriamente dito. Por enquanto o sistema ignora gráficos e diagramas.

Essa melhora faz parte da missão e estratégia do Google de tornar toda a informação do mundo acessível.

Numa estratégia diferente de seus antecessores no mundo da busca pela Web, o Google está sempre buscando melhorias que podem alavancar cada vez mais seu carro-chefe, aquele que o levou no patamar que está no dia de hoje em termos de market-share mundial.

Agora quanto a documentos confidenciais publicados na Web, antes protegidos pela ausência desse recurso, sendo invisíveis aos buscadores, isso é um outro problema, e que certamente demandará um grande trabalho das autoridades quanto à sua segurança, dado importante citado pela InformationWeek (veja artigo em inglês).

Vida dura para os concorrentes, não?

Artigos que também podem lhe interessar:

Compartilhe isto com seus amigos!

Discussão

  1. Marlon

Comente!