重生之AI教父_第191章验证码在剥削什么

“你猜猜，reCAPTCHA每天能够协助录入多少字符？”

阿里克斯带着一脸坏笑，他觉得这个数字量孟繁岐一定猜不到。

“你都这么说了，我肯定往大了猜，每天....一天八万多秒，一秒就算他一百个，八百万？”

“08年的时候每天六千万字符，现在应该几个亿了。”

根据统计估算，全世界每天输入验证码上亿次，每次接近十秒钟。

每天网民在验证码上的时间，就得接近百万小时。

通过白嫖这部分劳动力，不知不觉之间，人类已经通过验证码的方式录入了超过两千五百万本书进入数字世界。

这还仅仅只用了几年的时间。

“09年谷歌把reCAPTCHA买下来了，此后，验证码的种类开始变得多种多样起来，而不仅仅只是文本验证了。”

谷歌09年花了将近三千万美金买这个系统，当然不是为了做慈善。

此举，是为了获取海量的带标签数据，为自己后来的人工智能做准备。一半验证你是不是真人，有没有认真答题；另一半，则开始让你义务劳动打白工。

标注门牌号，路牌，分类各种图片，只要你生活在网络的世界，伱就或多或少地每天要给谷歌打几十秒的白工。

“所以说，虽然验证码诞生之初，解决了网络环境和用户安全的大问题，但后面其实性质已经发生了改变？”

“那当然，如果真的要做【分辨对面到底是人是狗】的图灵测试，其实还有更加聪明的办法，比如只需要点击一个我不是机器人的按钮就好了。”

“系统可以追踪用户的鼠标和键盘轨迹，让机器人的模拟成本非常之高，这才是更科学的验证系统。又或者是滑动，拼图的方式，都比验证码科学多了，又不会有识别错误的风险，比如8和B，o和0。至于那些图像的测试验证，其实更多的成为了一种收集数据的手段。”

小主，

这方面的内容确实是孟繁岐以前未曾关注过的。

他倒也注意到过，有时候自己胡乱点验证码，竟然也能通过。曾经怀疑过这里面的问题，但没有多想，也没有仔细研究过里面的原理。

更没想到，这个系统竟然收集了如此海量的数据，几年的时间就录入了数千万的书籍。

“现在这些扭曲的文字也不大行了，经过四五年的持续验证码标注，现在机器识别那些扭曲文字的准确率接近100，人类自己反而只有三四十的准确度。”

伊利亚笑着说道，这个数据是他们今年年初刚刚测试得到的。

“因此这种传统的录入单词的方式，现在也已经不够安全了。”

“验证码说得高大上一点，就是图灵测试的一种，确实在设计之初，就很难避免它有利于人工智能的本质。”

孟繁岐仔细想了下，觉得很合理，验证码的本意就是区分机器和人类。机器通过学习这些行为，自然能够在这方面越来越强。

“这个【我不是机器人】，看上去只需要点一下的功能，也不是你想的那么简单。它会追踪你点击验证框之前、当时和之后的行为，比如在网页上花费的时间和浏览的方式，从而来判断是否是人为操作。”