Google busca e indexa textos de documentos escaneados em PDF
O maior e melhor buscador do mundo melhorou um pouquinho mais, e agora está com um recurso inédito entre os buscadores:
Busca e indexação de texto em arquivos escaneados para o formato PDF
Isso mesmo, o Google passou a indexar documentos escaneados em PDF nos resultados de busca. Agora, quando você escanear uma página e publicar na web, ela será tratada pelo mecanismo de busca e indexação do Google da mesma forma que uma página de texto comum, ao invés de ser tratada como uma imagem.
Veja abaixo o link e repare no texto "View as HTML", disponÃvel como um link. Quando você clica nele, aparece a página escaneada, indexada pelo buscador. Caso teste no Yahoo ou no Live Search, da Microsoft, não terá o mesmo resultado:
Como o Google faz isso?
Fazendo uso da já conhecida tecnologia de reconhecimento ótico de caracteres, OCR, convertendo a imagem do texto em texto propriamente dito. Por enquanto o sistema ignora gráficos e diagramas.
Essa melhora faz parte da missão e estratégia do Google de tornar toda a informação do mundo acessÃvel.
Numa estratégia diferente de seus antecessores no mundo da busca pela Web, o Google está sempre buscando melhorias que podem alavancar cada vez mais seu carro-chefe, aquele que o levou no patamar que está no dia de hoje em termos de market-share mundial.
Agora quanto a documentos confidenciais publicados na Web, antes protegidos pela ausência desse recurso, sendo invisÃveis aos buscadores, isso é um outro problema, e que certamente demandará um grande trabalho das autoridades quanto à sua segurança, dado importante citado pela InformationWeek (veja artigo em inglês).
Vida dura para os concorrentes, não?
Se voce gostou deste artigo inscreva-se no nosso Feed e fique atualizado!
Voce pode se inscrever tambem por email!


novembro 3rd, 2008 at 2:20 pm
O Google está sempre a frente, inovando e pesquisando.
Isso já era esperado depois de indexar arquivos SWF (Flash) com um pouco de ajuda da Adobe.
Parabens pelo Blog.
Abraço