Google 開始對掃描文檔進行索引

Google 宣布,他們即將對掃描文檔進行索引并投入搜索,這意味著極其龐大的處理資源,以及高級圖象處理能力。和普通文本文件不同,掃描文檔不包含任何文字數據供 Google 索引,相反,Google 使用 OCR 軟件對掃描的文檔進行辨認,并轉換成文字內容。

過去,Google 也曾嘗試索引這些掃描的文檔圖片,但只能對文件名,以及附近的元數據進行索引,對圖片內容則無能為力。從現在開始,Google 搜索將包含這些通過 OCR 軟件辨認出來的文字內容,用戶在搜索中遇到掃描文檔,Google 會提供選項,讓你以 PDF 或 HTML 格式閱讀。

這類技術早已存在,但準確性一直是個問題,同樣,如此大規模的作業也不是一件容易事,這一舉動將為搜索帶來更多資源,尤其是來自印刷內容的搜索,如學術論文。

這里有一個掃描文檔的示例:Repairing Aluminum Wiring。更多資料可以訪問 Google 的博客

本文國際來源:http://www.techcrunch.com/2008/10/30/google-now-indexes-scanned-documents/
中文翻譯來源:COMSHARP CMS (銳商企業CMS)官方網站





評論
...
發表評論


用戶


評論(不超過1000字)


 6 x 3 = ? 請將左邊的算術題的結果填寫到左邊的輸入框  


  發送給朋友| 打印友好
7 x 12 小時服務熱線
0532 - 83669660
微信: comsharp
QQ: 13885509
QQ: 592748664
Skype: comsharp