ReCAPTCHA：让恼人的 CAPTCHA 技术造福人类

CAPTCHAs 是一种恼人的技术，据资料统计，全球用户每天要完成1亿次 CAPTCHA 测试。ReCAPTCHA 是 Carnegie Mellon 大学启动的一个项目，目的是借助 CATPTCHA 技术将那些残旧图书数字化，据估计，该技术每天可以完成160本书。

该项目目前已经在40000家网站上部署了 ReCAPTCHA 技术，ReCAPTCHA 的基本原理是，对光学字符识别（OCR）软件来说，它们的辨识能力是有限的，尤其是那些印刷不清晰的旧书或残书，而人类可以凭借自己的阅读经验，轻松识别那些 OCR 无法识别的文字。对这样的文字，人类的识别成功率可以达到99%，而OCR软件只能达到80%。

ReCAPTCHA 结合了传统 OCR 与一个类似 Amazon's Mechanical Turk 的系统。每个单词都先经过两个不同的 OCR 软件辨识，如果两个 OCR 识别结果不一致，该单词会被标志为“未识别”，这些未被识别的文字会被送入 ReCAPTCHA 系统，被制作成 CAPTCHA 文字让用户识别。

译者注：这里原文并没讲清楚用户如何完成 CAPTCHA 识别，因为 CAPTCHA 要求系统本身必须知道准确答案，而现在的问题是系统自己也辨认不出。我猜想其机制应该是这样的，首先，在一开始，用户提供的任何辨认结果，不管是否正确都可以通过，但系统会记录每个用户的辨认结果，最后，等辨认结果累积到一定数量，系统会将多数人一致的辨认的结果作为 Control Word 以校验以后的测试。原文中提到，一开始，系统提供一个已知的 Control Word （known control word），但这个 known control word 是如何来的，并没有说明。首先这个 known control word 不可能是准确的，否则就不必 ReCAPTCHA 了，其次，既然 Control Word 并不准确，如何判定用户是否通过测试，只有一个办法，就是在一开始，让用户提交的任何辨认结果都通过。

总体来说，ReCAPTCHA 实现了 99.1% 的成功率，这几乎是让一个人打字，另一个人在旁边辨认的成功率。ReCAPTCHA 技术目前基本上仍处于概念期，但开发者认为，该技术每天将能够辨认大约160本书。

该项目的精彩之处在于，它利用了那些本来是被浪费掉的人类的脑力。其它类似的项目也基于相同的思想，比如，fold.it，将蛋白质折叠计算转换成一个游戏，而 Google 的 Image Labeler 项目也是借助庞大的用户群的脑力完成对互联网中的图片的辨认。

本文国际来源：http://www.readwriteweb.com/archives/recaptcha_stopping_spam.php
中文翻译来源：COMSHARP CMS 官方网站