重生之AI教父_第191章验证码在剥削什么

“现在谷歌的验证码是怎么做的？”

孟繁岐有点好奇，他此前一直对这方面的事情有所怀疑，不过却没有仔细研究过，尤其是比较早期的时候。

“现在的所谓验证码系统，说得专业一点，叫【区分人机的全自动图灵测试系统】(CAPTCHA)，前些年是一家叫做reCAPTCHA的公司做的，不过这家公司已经被谷歌收购了。”

阿里克斯在这方面关注过一段时间：“现在世界上用得最多的验证码系统，就是这家公司的产品。”

“当时是卡耐基梅隆大学的一个教授想到的，可以说这个系统从推出之初，就是打着白嫖劳动力的主意。”

计算机在1980到1990年左右开始逐渐进入个人家庭，在二十一世纪初，人类开始初步进入数字化生活，并且越来越依赖这种数字化。

这种数字化突如其来，带来了一个很大的难题：那就是这几千年来，所有的知识和典籍，基本上都是通过纸质书籍来记载的。

这些东西很多都是人类的瑰宝，在新的计算机时代，怎么把这些流传下来的知识数字化，是一个很大的难题。

最简单的办法，就是手打录入，但这个就比较要命了。

手工录入需要的人数可不是三四位数那么简单，没有几万上十万人，这项工程是不大可能做出点名头的。

市值万亿的苹果公司，人数才十来万，想搞十万人来录入，代价显然太大了一些。

人力的问题说白了还是钱的问题，这个工程虽然意义重大，什么都好，但就是没有什么油水，它不赚钱。

退一步说，即便你有钱也有人，人类做这种长时间的机械劳动，就是很容易输错。

别的不说，网文作者一天几千字，就到处都是错别字，这还是自己想出来的内容。

若是让他们录入别人的文本，还很可能是看不明白的内容，那还得了？输错字输串行都是再正常不过的事情了。

另一种策略，那就是先扫描，然后结合文字识别技术，自动录入。

听起来非常不错，但大家都知道，直到2023年，这种图像直接识别文字的功能，都仍旧有很多的缺陷和不便之处。

就别提二十一世纪初了，而且很多早期的文字典籍，人看都费劲，扫描出来一团浆糊，识别出来更是一团乱码。

因而，07年的时候，reCAPTCHA这个系统就出现了。

它先是扫描这些文本，然后选出一个个的单词，最后在单词上面加点特技，让人可以识别出来，机器却很难做到。

这就是为什么大家看到的字母验证码总是千奇百怪的形状，上面还有很多干扰的条纹。

这种验证装置，看似是用于验证，可通常都是真假结合。

比如第一个是有正确答案的真的【验证码】，第二个则是其实根本没有答案的义务劳动。

如果你第一个填对了，它就会默认你对第二个验证码的劳动也是正确的，并把这个结果传回项目主机。

并且，同一张义务劳动的图片还会交叉发给多个人类用户，用以对比和确保答案的正确和可信程度。