“验证码里点选画面中的文字歪歪扭扭的,辨认起来还挺费劲的,如果这时后面的车还按喇叭或者闪灯催我,就更加着急不安了。”陈祥在商场停车场付费准备离开时,跳出的验证码让他有点崩溃。 早在2010年,一项来自美国斯坦福大学的大规模用户研究显示,普通用户平均需要9.8秒才能解决一个图像验证码,完成一个语音验证码则要花上28.4秒。 到了2024年,一项关于用户对验证码的感知研究显示,在近150位被调查的互联网用户中,只有35%的用户总能一次性顺利通过验证码。而46%的用户会在验证码多次失败后放弃使用网站。 这位语言学习类APP多邻国的创始人,在2000年,为了帮助雅虎摆脱垃圾邮件的攻击,与团队一起设计出一套系统:通过扭曲字符来区分人类与机器。 这,便是验证码(CAPTCHA)的雏形。 从扭曲字符到点击图像、从简单算数题到滑块拼图,再到近几年的行为验证....... 可无论验证码怎么变,几乎都没扛过几年就被破解了。 同时,在2023年的一项研究中指出:无论是文本验证码、图像识别、点击任务,还是滑动拼图, AI在破解速度和准确率上,都全面碾压人类。例如,在处理文本类验证码任务时,人类耗时15.3s,最高正确率为84%;而机器人仅需0.9s,最高正确率便达99.8%。 对此,当前部分验证码通过采用 “AI对抗AI” 的逻辑实现了技术升级;也有一部分验证码的底层逻辑发生了转变,从过去的“看你有几分像机器”转向如今的“看你有几分像人”。 例如,Google于2018年推出无感验证,reCAPTCHA V3,相对于之前的版本,V3完全不用用户接受测试,无需任何主动操作,而是通过用户上网的行为数据(如鼠标移动、滚动、点击、停留时间等)来判断访问者是否为人类。但是,验证码变得更加友好了,用户却让渡了个人数据。 为了让这些时间变得有价值,路易斯·冯·安在2007年创建了reCAPTCHA。旨在借助验证码形式来弥补光学字符识别(OCR)技术缺陷,并助力《纽约时报》完成了自1851年以来1300万篇文章的数字化。 此后,谷歌进一步拓展技术应用场景:依托谷歌街景的图像资源,让用户识别门牌号等标识信息,相关数据也被用于训练Waymo自动驾驶技术等AI模型。 法国《巴黎人报》报道称,谷歌的算盘打得很精:既能借此增强其搜索引擎所收录网站的安全性,又让全球用户免费贡献了“劳动力”。 美国加州大学欧文分校的研究人员初步估算,在2009年之后的13年里,用户在输入谷歌验证码上,共计消耗了8.19亿小时。按美国联邦最低工资7.5美元/时计算,这相当于谷歌省下了至少61亿美元的工资。而此次估算值,据研究人员称,也仅仅是较为保守的下限。 不仅如此,还有一些公司和研究机构公开了带有人工标注的验证码图像数据集,专门供开发者和研究人员训练、测试AI模型。 腾讯与深圳大学曾在2021年联合推出"MedCAPTCHA医学图像验证码",通过验证码形式将临床上真实的脱敏医学图像开放给公众标注。而这些被标注的数据也成为机器学习的训练样本,推动AI在医疗领域的应用发展。 20年前,路易斯·冯·安认为,验证码与AI的发展会是一种“双赢”局面:如果验证码没有被攻破,则有效地保障了网站的安全;反之,则意味着人工智能领域取得了进步。


