Google 開始對掃描文檔進行索引
作者: its
|
發布: 2008/10/31 (下午 04:49)
|
閱讀: 28422
|
評論: 0
|
靜態地址
|
內容源碼
Google 宣布,他們即將對掃描文檔進行索引并投入搜索,這意味著極其龐大的處理資源,以及高級圖象處理能力。和普通文本文件不同,掃描文檔不包含任何文字數據供 Google 索引,相反,Google 使用 OCR 軟件對掃描的文檔進行辨認,并轉換成文字內容。
過去,Google 也曾嘗試索引這些掃描的文檔圖片,但只能對文件名,以及附近的元數據進行索引,對圖片內容則無能為力。從現在開始,Google 搜索將包含這些通過 OCR 軟件辨認出來的文字內容,用戶在搜索中遇到掃描文檔,Google 會提供選項,讓你以 PDF 或 HTML 格式閱讀。
這類技術早已存在,但準確性一直是個問題,同樣,如此大規模的作業也不是一件容易事,這一舉動將為搜索帶來更多資源,尤其是來自印刷內容的搜索,如學術論文。
這里有一個掃描文檔的示例:Repairing Aluminum Wiring。更多資料可以訪問 Google 的博客。
本文國際來源:http://www.techcrunch.com/2008/10/30/google-now-indexes-scanned-documents/ 中文翻譯來源:COMSHARP CMS (銳商企業CMS)官方網站
|