Google 開始對掃描文檔進行索引

行業新聞

Google 開始對掃描文檔進行索引

Google 宣布，他們即將對掃描文檔進行索引并投入搜索，這意味著極其龐大的處理資源，以及高級圖象處理能力。和普通文本文件不同，掃描文檔不包含任何文字數據供 Google 索引，相反，Google 使用 OCR 軟件對掃描的文檔進行辨認，并轉換成文字內容。

過去，Google 也曾嘗試索引這些掃描的文檔圖片，但只能對文件名，以及附近的元數據進行索引，對圖片內容則無能為力。從現在開始，Google 搜索將包含這些通過 OCR 軟件辨認出來的文字內容，用戶在搜索中遇到掃描文檔，Google 會提供選項，讓你以 PDF 或 HTML 格式閱讀。

這類技術早已存在，但準確性一直是個問題，同樣，如此大規模的作業也不是一件容易事，這一舉動將為搜索帶來更多資源，尤其是來自印刷內容的搜索，如學術論文。

這里有一個掃描文檔的示例：Repairing Aluminum Wiring。更多資料可以訪問 Google 的博客。

評論

...

7 x 12 小時服務熱線

0532 - 83669660