Google busca e indexa textos de documentos escaneados em PDF

novembro 2, 2008 by Vinicius  
Debaixo da categoria Tecnologia

O maior e melhor buscador do mundo melhorou um pouquinho mais, e agora está com um recurso inédito entre os buscadores:

Busca e indexação de texto em arquivos escaneados para o formato PDF

Isso mesmo, o Google passou a indexar documentos escaneados em PDF nos resultados de busca. Agora, quando você escanear uma página e publicar na web, ela será tratada pelo mecanismo de busca e indexação do Google da mesma forma que uma página de texto comum, ao invés de ser tratada como uma imagem.

Veja abaixo o link e repare no texto “View as HTML”, disponível como um link. Quando você clica nele, aparece a página escaneada, indexada pelo buscador. Caso teste no Yahoo ou no Live Search, da Microsoft, não terá o mesmo resultado:

repairing aluminum wiring

Como o Google faz isso?

Fazendo uso da já conhecida tecnologia de reconhecimento ótico de caracteres, OCR, convertendo a imagem do texto em texto propriamente dito. Por enquanto o sistema ignora gráficos e diagramas.

Essa melhora faz parte da missão e estratégia do Google de tornar toda a informação do mundo acessível.

Numa estratégia diferente de seus antecessores no mundo da busca pela Web, o Google está sempre buscando melhorias que podem alavancar cada vez mais seu carro-chefe, aquele que o levou no patamar que está no dia de hoje em termos de market-share mundial.

Agora quanto a documentos confidenciais publicados na Web, antes protegidos pela ausência desse recurso, sendo invisíveis aos buscadores, isso é um outro problema, e que certamente demandará um grande trabalho das autoridades quanto à sua segurança, dado importante citado pela InformationWeek (veja artigo em inglês).

Vida dura para os concorrentes, não?

Artigos que também podem lhe interessar:

Divulgue este artigo no Twitter!

Related Posts with Thumbnails
Compartilhe este artigo na su rede social favorita ou imprima:
  • Print
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • email
  • LinkedIn
  • Live
  • Rec6
  • TwitThis
  • RSS
If you enjoyed this post, make sure you subscribe to my RSS feed!

Comentários

Uma resposta to “Google busca e indexa textos de documentos escaneados em PDF”
  1. O Google está sempre a frente, inovando e pesquisando.
    Isso já era esperado depois de indexar arquivos SWF (Flash) com um pouco de ajuda da Adobe.
    Parabens pelo Blog.

    Abraço

    [Reply]

Registre sua opinião!

Diga-no o que você acha deste artigo...
se quiser uma imagem para mostrar junto a seu comentário, pegue um gravatar!

CommentLuv Enabled

monitor server