维基百科(Wikipedia)中的内容增长速度正在放缓,规模原本已经很小了的活跃编辑的数目也在下滑,Jimmy Wales 呼吁编辑们审查的内容越来越多,进一步阻碍了内容的增长。然而 Wikipedia 新鲜内容的减少并不意味着它的死亡,Wikipedia 拥有一个庞大的结构数据库,这是一个尚未被发现的宝藏。
Wikipedia 中的数据有大量来自用户创建,还有更多数据可供开发者进行分析。
上图: 借助 Wikidashboard 浏览器扩展获得编辑历史记录 Edit history
这个快速成长的由用户贡献内容的知识库目前也许还处于青春期,Wiki 的发明者 Ward Cunningham 认为 Wales 要求审查内容的努力是一种不可避免的成熟表现,虽然这两种情形他都未必喜欢,未必代表 Wiki 的方向。然而 Wikipedia 数量庞大的知识库却为开发者带来了各种价值。
目前 Wikipedia 还没有 API 提供,然而它的数据却可以轻松访问,可以被下载到本地进行处理,最近,一个叫做 WikiXMLDB 的项目开始推出 XML 化的 Wikipedia,另外值得一提的还有 DBPedia,该项目将 Wikipedia 中的数据转换成结构数据库。人们开始用各种各样的方式访问这些数据并发现了一些实用价值。如果 Wikipedia 能推出几个正式 API,相信会像《纽约时报》推出 API 一样让人兴奋。
人们可以拿 Wikipedia 的数据做什么?
将 Wikipedia 作为一个重要的知识源
早期,主流媒体谈到 Wikipedia 的时候,多是对一些参与者感兴趣,那些留着及膝长须,住在新墨西哥的流浪公园的家伙喜欢发一些关于天文或厨艺的文章。Wikipedia 帮助人们释放出那些埋藏在大脑中的知识,对这些人系统地发掘只是建立在 Wikipedia 之上的众多价值之一。
Palo Alto 研究中心最近设计了一个叫做 WikiDashboard 的程序,这个工具可以分析任何一篇 Wikipedia 文章最近的修改历史。Paul Irish 曾是一个著名在线音乐博客站点的编辑,最近他设计了一个 Greasemonkey 脚本 可以直接在 Wikipedia 页面访问那些数据。
将 Wikipedia 作为新闻雷达
Wikipedia 对时事非常关注,一个叫 WikiRage 的站点根据 Wikipedia 文章被修改的频度来衡量某个话题的重要性。RWW 曾推出这样的文章,非广告目的的数据挖掘将来会很盛行,以及 Facebook 的情感引擎会很大。Wikipedia 的编辑的频度比起 Twitter 和 facebook 来说要小得多,但可能拥有很高的价值,最终会是社会媒体数据挖掘的一个重要补充。
最佳用例:平衡 Wikipedia 的结构数据
上个月,RWW 有篇文章提到,Google 好像在某些搜索结果中推出语义的结构数据,这些数据有的是 Google 自己分析的,有些很显然来自 Wikipedia,这些结构化数据会带来很多实用价值。
推荐服务网站 MSpoke 正在这样做,这个商业新闻跟踪服务使用 Wikipedia 训练它的推荐引擎。MSpoke 的的 Sean Ammirati 说,Wikipedia 的内容澄清页对帮助他们分清两个迈克尔乔丹中哪个是篮球明星,哪个是统计学家非常有帮助。在商业推荐服务中,这些信息非常有用。
通过对 Wikipedia 大量词汇的分析,MSpoke 已经可以快速理解他们从网络上发现的文章。这也是 Metaweb 和 Powerset 一直在做的事,然而 Powerset 已经被微软收购,而据传闻 Metaweb 前景也不太妙。
Wikipedia 可以让自己更多成为一个开放的数据库,而不是一个供众人修改的站点,也可能 Wikipedia 目前还没有足够流行到可以做出这样的跨越,或者它的政治纠纷,以及热情的衰退来得太早,到底怎样只有让时间来说明一切了。
本文国际来源:http://www.readwriteweb.com/archives/could_wikipedias_future_api.php 中文翻译来源:COMSHRAP CMS 官方网站
|