語意搜索的神話與現實 - 基于 COMSHARP CMS

近年來，人們一直談論語意搜索，任何能夠同 Google 抗衡的技術都倍受關注，尤其那些期待已久的語意搜索技術。但不管人們在這方面獲得了何種進步，我們仍然對結果失望，在與 Google 做的并列搜索結果對比中，我們發現二者的差別并不大。

例如，當我們問，法國的首都是哪里？兩種搜索技術都返回正確答案，巴黎。同樣，我們在 Google 中搜索的時候，不管使用自然語言還是縮寫式搜索語言，返回的結果都差不多。我們都知道語意搜索技術很強大，但強大在哪里？本文中我們會看到問題出在我們的搜索提問方式不對。

自然語言搜索引擎為我們提供了一個和 Google 一樣的搜索框，我們在這個搜索框中輸入搜索問題的時候，不自覺地使用了那些最原始的提問方式，如，法國的首都是哪里，我們很少問，同時在 Pulp Fiction 和 Saturday Night Fever 中主演的是哪個演員？，或者，那兩個接收國外政治獻金的美國議員是誰？我們輸入的問題太簡單，這無法體現語意搜索的強大，我們下面會談到 Google, SearchMonkey, Powerset 以及 Freebase 等搜索技術在語意技術上的對比。

我們要解決的問題

第一個困惑來自這樣的事實，就是，語意搜索已經被推向可以解決一切問題的位置，從以 Google 為代表的現代搜索問題，到一些計算機根本無法解決的問題，更嚴重的是，目前語意搜索只能在一個狹小的范圍內做得比較好，就是那些牽扯到對復雜數據進行推理的查詢。

象上圖中顯示的那樣，基礎查詢，Google 很容易處理，不幸的是，自然語言在這里幾乎沒有優勢，Google 可以準確的回答達芬奇的生日，但它沒有辦法理解用戶輸入的名詞和動詞，也沒有辦法因此提高搜索質量。

我們在觀察語意搜索能完美解決的問題之前，先讓我們看看最困難的部分。在理解語意之外，有一些計算上的挑戰，有一個延續了很久的對語意 Web 的誤解是，既然我們可以注解 Web，那我們就能夠解決那些超級復雜的問題，這是不對的。我們在計算上有一些本質的限制，那些可能有很多解決方法的問題未必會因為我們以 RDF 表現數據就能得到解決。

一個好消息是，有一些問題對語意搜索來說是得心應手的，就是那些我們已經通過關系數據庫完美解決了的問題。我們經常忘記了語意技術是來幫助我們在整個 Web 世界表現關系數據的，所以，就不奇怪語意搜索將超越關系搜索。

當前的語意搜索商

但語意搜索并不是我們問問題，因為 Web 事實上是一堆非結構化 HTML 頁，語意搜索與這些 HTML 頁背后的數據有關。這其中最極端的例子是 Freebase 。 Freebase 可以通過文字搜索進行訪問，但更主要通過 MQL （Metaweb 查詢語言）訪問。使用 MQL，你可以從 Freebase 查詢任何東西。

Powerset 從某個方面來說，僅僅是關系數據庫，它基于特定的結構信息。Google 則全然是統計意義上的頻度問題，幾乎沒有語意思在內。Yahoo! 最近發布的 SearchMonkey 是對二者有趣的結合，它并不在結果集中加入任何東西，而是使用語意注解，來表現更豐富，更交互，更有用的用戶界面。

Hakia 和 Powerset 是在這些技術上最努力的公司，他們企圖建立一個類似 Freebase 的結構，然后使用自然語言進行查詢。不同的是，Hakia 面向整個 Web，而 Powerset 只面向 Wikipedia。

Hakia, Powerset 和 Freebase 到底有多大區別

現在有一個問題，上面提到這幾種技術中哪些是不同的，哪些從本質上是一樣的？我們先從簡單的入手，從搜索的核心技術來說，Yahoo 的 SearchMonkey 和 Google 以及其它搜索沒有什么不同，不同的是展示層。SearchMonkey 通過將搜索結果以最好的方式展示給用戶，而為用戶創建一個更好的使用體驗。

但 Hakia, Powerset 和 Freebase 的情形卻復雜的多，從表面看，這些技術都不一樣，Hakia 讓你搜索整個網絡，Powerset 只限于 Wikipedia （和 Freebase），Freebase 自己擁有兩種界面，搜索框式界面和查詢語言式界面，這就是問題所在，自然語言界面與其背后的數據展示沒有任何關系。

事實上，所有這些語意搜索技術允許用戶輸入復雜的問題，然后將這些查詢問題進行分析并向數據庫進行查詢。本質上，Hakia, Powerset 和 Freebase 是數據庫，他們都是一種自然語言處理引擎，將用戶的問題翻譯成對數據庫的查詢。

要徹底看清這些技術的內部，不妨想一想 Freebase 和它的查詢語言 MQL。和自然語言不同，MQL 允許各種查詢結構，MQL 不會產生歧義，這種類似 JSON 的語言允許用戶構造精確的查詢語句。我們說 Powerset 允許自然語言查詢并不是說 Powerset 的內部有一個數據庫，當然，它的內部有一個和 Freebase 搜索框后面的數據庫類似的東西，真正不同的是他們搜集集合數據的方式以及用戶的體驗。

搜索的未來：用戶界面是一切

也許語意搜索最大的革命是用戶界面，首先，Powerset 正確地認識到語意是用戶界面最上面的一層，用戶在 Powerset 搜索的時候，一個可以進行上下文關聯的工具會意識到結果的語意，并提供一些有用的信息來幫助用戶完成搜索體驗。

但我認為 Powerset 犯的最大錯誤也是用戶界面，那個和傳統搜索一模一樣的搜索框應當去掉，提供一個簡化的搜索界面會傷害 Powerset，Hakia 以及 Freebase。

聯想到 Powerset ，它使用了一種總體上更好的方式同網絡中最好的資源 Wikipedia 進行交互，但批評著是怎么說的，Powerset 是 Google 殺手嗎，不是。

但，如果 Powerset 縮小自己的搜索范圍會呢？如果 Powerset 用另一種界面替換那個搜索框，或者告訴用戶在 Powerset 找那些 Google 無法簡單找到的東西會怎么樣呢？這些新公司為什么要改進那些已經存在了10年的技術，而不是為那些 Google 解決不了的問題提供方案？

結論

語意搜索是一種過分抬高了人們的期望值的技術，我們都誤以為這些技術是 Google 的替代品，會帶來更好的搜索結果。事實上不是，這些技術的出現，是為了解決目前 Google 等傳統搜索引擎所無法解決的問題，那些復雜的，牽扯到推理的，將整個 Web 當作數據庫進行查詢的問題。

本文國際來源：http://www.readwriteweb.com/archives/semantic_search_the_myth_and_reality.php
中文翻譯來源：COMSHARP CMS 官方網站