Google即將開始深度Web索引
作者: its
|
發布: 2008/4/13 (上午 03:34)
|
閱讀: 22791
|
評論: 0
|
靜態地址
|
內容源碼
Google 從來都不會停止對信息的追求,去年共有100 Exabyte 的數據被 Google 消化(1Exabyte=1000000000Gigabyte)。據估計,仍有大量的在線數據是 Google 所無法獲取的,如那些未被索引的網頁,非文本內容,以及需要通過表單發布方可獲取的動態內容,即所謂的深度Web。Google 近日在一篇博客文章中宣布,他們即將涉足這些深度Web數據。
在這篇博客文章中,Google 的 Jayant Madhavan 與 Alon Halevy 說,對于那些文本框,我們會從所在頁選擇一些詞匯填寫,對于選擇框與復選框,我們會從 HTML 中選擇一些值,一旦填寫好表單,我們會嘗試發布這個表單并對返回的合法,有意義的內容進行索引。
Google 同時強調,他們會一如既往地尊重 robots.txt 協議,任何在 robots.txt 被禁止的表單都不會被索引。
據估計,深度 Web 的規模是常規的公開 Web 的數倍,盡管在網絡中,有很多數據是 Google 不應涉足的,但表單可以讓 Google 在網絡中更進一步,Matt Cutts 指出,我們這樣做主要不是為了那些通過表單發布而返回的搜索結果,更多是為了發現一些通過常規手段所沒能發現的新鏈接。
需要指出的是,Google 只索引那些使用 GET 協議的表單,而不會嘗試去發布那些使用 POST協議 的表單,所以,你不必擔心自己的在線反饋表單收到一堆來自 Google 的垃圾信息。
本文國際來源:http://www.readwriteweb.com/archives/google_crawling_html_forms.php,中文翻譯來源:COMSHARP CMS 官方網站的行業新聞。
|