語意搜索的神話與現實

近年來,人們一直談論語意搜索,任何能夠同 Google 抗衡的技術都倍受關注,尤其那些期待已久的語意搜索技術。但不管人們在這方面獲得了何種進步,我們仍然對結果失望,在與 Google 做的并列搜索結果對比中,我們發現二者的差別并不大。

例如,當我們問,法國的首都是哪里?兩種搜索技術都返回正確答案,巴黎。同樣,我們在 Google 中搜索的時候,不管使用自然語言還是縮寫式搜索語言,返回的結果都差不多。我們都知道語意搜索技術很強大,但強大在哪里?本文中我們會看到問題出在我們的搜索提問方式不對。

自然語言搜索引擎為我們提供了一個和 Google 一樣的搜索框,我們在這個搜索框中輸入搜索問題的時候,不自覺地使用了那些最原始的提問方式,如,法國的首都是哪里,我們很少問,同時在 Pulp Fiction 和 Saturday Night Fever 中主演的是哪個演員?,或者,那兩個接收國外政治獻金的美國議員是誰?我們輸入的問題太簡單,這無法體現語意搜索的強大,我們下面會談到 Google, SearchMonkey, Powerset 以及 Freebase 等搜索技術在語意技術上的對比。

我們要解決的問題

第一個困惑來自這樣的事實,就是,語意搜索已經被推向可以解決一切問題的位置,從以 Google 為代表的現代搜索問題,到一些計算機根本無法解決的問題,更嚴重的是,目前語意搜索只能在一個狹小的范圍內做得比較好,就是那些牽扯到對復雜數據進行推理的查詢。

象上圖中顯示的那樣,基礎查詢,Google 很容易處理,不幸的是,自然語言在這里幾乎沒有優勢,Google 可以準確的回答達芬奇的生日,但它沒有辦法理解用戶輸入的名詞和動詞,也沒有辦法因此提高搜索質量。

我們在觀察語意搜索能完美解決的問題之前,先讓我們看看最困難的部分。在理解語意之外,有一些計算上的挑戰,有一個延續了很久的對語意 Web 的誤解是,既然我們可以注解 Web,那我們就能夠解決那些超級復雜的問題,這是不對的。我們在計算上有一些本質的限制,那些可能有很多解決方法的問題未必會因為我們以 RDF 表現數據就能得到解決。

一個好消息是,有一些問題對語意搜索來說是得心應手的,就是那些我們已經通過關系數據庫完美解決了的問題。我們經常忘記了語意技術是來幫助我們在整個 Web 世界表現關系數據的,所以,就不奇怪語意搜索將超越關系搜索。

當前的語意搜索商

但語意搜索并不是我們問問題,因為 Web 事實上是一堆非結構化 HTML 頁,語意搜索與這些 HTML 頁背后的數據有關。這其中最極端的例子是 Freebase 。 Freebase 可以通過文字搜索進行訪問,但更主要通過 MQL (Metaweb 查詢語言)訪問。使用 MQL,你可以從 Freebase 查詢任何東西。

Powerset 從某個方面來說,僅僅是關系數據庫,它基于特定的結構信息。Google 則全然是統計意義上的頻度問題,幾乎沒有語意思在內。Yahoo! 最近發布的 SearchMonkey 是對二者有趣的結合,它并不在結果集中加入任何東西,而是使用語意注解,來表現更豐富,更交互,更有用的用戶界面。

Hakia 和 Powerset 是在這些技術上最努力的公司,他們企圖建立一個類似 Freebase 的結構,然后使用自然語言進行查詢。不同的是,Hakia 面向整個 Web,而 Powerset 只面向 Wikipedia

Hakia, Powerset 和 Freebase 到底有多大區別

現在有一個問題,上面提到這幾種技術中哪些是不同的,哪些從本質上是一樣的?我們先從簡單的入手,從搜索的核心技術來說,Yahoo 的 SearchMonkey 和 Google 以及其它搜索沒有什么不同,不同的是展示層。SearchMonkey 通過將搜索結果以最好的方式展示給用戶,而為用戶創建一個更好的使用體驗。

但 Hakia, Powerset 和 Freebase 的情形卻復雜的多,從表面看,這些技術都不一樣,Hakia 讓你搜索整個網絡,Powerset 只限于 Wikipedia (和 Freebase),Freebase 自己擁有兩種界面,搜索框式界面和查詢語言式界面,這就是問題所在,自然語言界面與其背后的數據展示沒有任何關系。

事實上,所有這些語意搜索技術允許用戶輸入復雜的問題,然后將這些查詢問題進行分析并向數據庫進行查詢。本質上,Hakia, Powerset 和 Freebase 是數據庫,他們都是一種自然語言處理引擎,將用戶的問題翻譯成對數據庫的查詢。

要徹底看清這些技術的內部,不妨想一想 Freebase 和它的查詢語言 MQL。和自然語言不同,MQL 允許各種查詢結構,MQL 不會產生歧義,這種類似 JSON 的語言允許用戶構造精確的查詢語句。我們說 Powerset 允許自然語言查詢并不是說 Powerset 的內部有一個數據庫,當然,它的內部有一個和 Freebase 搜索框后面的數據庫類似的東西,真正不同的是他們搜集集合數據的方式以及用戶的體驗。

 

搜索的未來:用戶界面是一切

也許語意搜索最大的革命是用戶界面,首先,Powerset 正確地認識到語意是用戶界面最上面的一層,用戶在 Powerset 搜索的時候,一個可以進行上下文關聯的工具會意識到結果的語意,并提供一些有用的信息來幫助用戶完成搜索體驗。

但我認為 Powerset 犯的最大錯誤也是用戶界面,那個和傳統搜索一模一樣的搜索框應當去掉,提供一個簡化的搜索界面會傷害 Powerset,Hakia 以及 Freebase。

聯想到 Powerset ,它使用了一種總體上更好的方式同網絡中最好的資源 Wikipedia 進行交互,但批評著是怎么說的,Powerset 是 Google 殺手嗎,不是。

但,如果 Powerset 縮小自己的搜索范圍會呢?如果 Powerset 用另一種界面替換那個搜索框,或者告訴用戶在 Powerset 找那些 Google 無法簡單找到的東西會怎么樣呢?這些新公司為什么要改進那些已經存在了10年的技術,而不是為那些 Google 解決不了的問題提供方案?

結論

語意搜索是一種過分抬高了人們的期望值的技術,我們都誤以為這些技術是 Google 的替代品,會帶來更好的搜索結果。事實上不是,這些技術的出現,是為了解決目前 Google 等傳統搜索引擎所無法解決的問題,那些復雜的,牽扯到推理的,將整個 Web 當作數據庫進行查詢的問題。

本文國際來源:http://www.readwriteweb.com/archives/semantic_search_the_myth_and_reality.php
中文翻譯來源:COMSHARP CMS 官方網站





評論
...
發表評論


用戶


評論(不超過1000字)


 7 - 8 = ? 請將左邊的算術題的結果填寫到左邊的輸入框  


  發送給朋友| 打印友好
7 x 12 小時服務熱線
0532 - 83669660
微信: comsharp
QQ: 13885509
QQ: 592748664
Skype: comsharp