Google busca e indexa textos de documentos escaneados em PDF | CTI

Compartilhe isto com seus amigos!

O maior e melhor buscador do mundo melhorou um pouquinho mais, e agora está com um recurso inédito entre os buscadores:

Busca e indexação de texto em arquivos escaneados para o formato PDF

Isso mesmo, o Google passou a indexar documentos escaneados em PDF nos resultados de busca. Agora, quando você escanear uma página e publicar na web, ela será tratada pelo mecanismo de busca e indexação do Google da mesma forma que uma página de texto comum, ao invés de ser tratada como uma imagem.

Veja abaixo o link e repare no texto “View as HTML”, disponível como um link. Quando você clica nele, aparece a página escaneada, indexada pelo buscador. Caso teste no Yahoo ou no Live Search, da Microsoft, não terá o mesmo resultado:

repairing aluminum wiring

Como o Google faz isso?

Fazendo uso da já conhecida tecnologia de reconhecimento ótico de caracteres, OCR, convertendo a imagem do texto em texto propriamente dito. Por enquanto o sistema ignora gráficos e diagramas.

Essa melhora faz parte da missão e estratégia do Google de tornar toda a informação do mundo acessível.

Numa estratégia diferente de seus antecessores no mundo da busca pela Web, o Google está sempre buscando melhorias que podem alavancar cada vez mais seu carro-chefe, aquele que o levou no patamar que está no dia de hoje em termos de market-share mundial.

Agora quanto a documentos confidenciais publicados na Web, antes protegidos pela ausência desse recurso, sendo invisíveis aos buscadores, isso é um outro problema, e que certamente demandará um grande trabalho das autoridades quanto à sua segurança, dado importante citado pela InformationWeek (veja artigo em inglês).

Vida dura para os concorrentes, não?

Artigos que também podem lhe interessar:

Compartilhe isto com seus amigos!

Discussão

Raphael Cardoso

O Google está sempre a frente, inovando e pesquisando.
Isso já era esperado depois de indexar arquivos SWF (Flash) com um pouco de ajuda da Adobe.
Parabens pelo Blog.
Abraço
3 de November de 2008
Marlon

Olá Vinicius Quanto tempo em média leva para um arquivo PDF ser indexado pelo Google, que estratégias eu preciso utilizar pra otimizar este tempo.
27 de June de 2016

Artigos que também podem lhe interessar:

Discussão

Raphael Cardoso

Marlon

Comente!