Google即將開始深度Web索引

Google 從來都不會停止對信息的追求，去年共有100 Exabyte 的數據被 Google 消化（1Exabyte=1000000000Gigabyte）。據估計，仍有大量的在線數據是 Google 所無法獲取的，如那些未被索引的網頁，非文本內容，以及需要通過表單發布方可獲取的動態內容，即所謂的深度Web。Google 近日在一篇博客文章中宣布，他們即將涉足這些深度Web數據。

在這篇博客文章中，Google 的 Jayant Madhavan 與 Alon Halevy 說，對于那些文本框，我們會從所在頁選擇一些詞匯填寫，對于選擇框與復選框，我們會從 HTML 中選擇一些值，一旦填寫好表單，我們會嘗試發布這個表單并對返回的合法，有意義的內容進行索引。

Google 同時強調，他們會一如既往地尊重 robots.txt 協議，任何在 robots.txt 被禁止的表單都不會被索引。

據估計，深度 Web 的規模是常規的公開 Web 的數倍，盡管在網絡中，有很多數據是 Google 不應涉足的，但表單可以讓 Google 在網絡中更進一步，Matt Cutts 指出，我們這樣做主要不是為了那些通過表單發布而返回的搜索結果，更多是為了發現一些通過常規手段所沒能發現的新鏈接。

需要指出的是，Google 只索引那些使用 GET 協議的表單，而不會嘗試去發布那些使用 POST協議的表單，所以，你不必擔心自己的在線反饋表單收到一堆來自 Google 的垃圾信息。

本文國際來源：http://www.readwriteweb.com/archives/google_crawling_html_forms.php，中文翻譯來源：COMSHARP CMS 官方網站的行業新聞。