11-验证码与机器学习
[toc]
7.5 验证码与机器学习
随着深度学习和图像识别技术的进步,计算机在正确识别图像中的文本和对象方面越来越出色。有一些有意思的论文和项目针对验证码运用了深度学习图像识别方法。一个基于Python的项目( https://github.com/arunpatala/captcha )使用了PyTorch在一个大型验证码数据集上训练处理模型。2012年6月,Claudia Cruz、Fernando Uceda以及Leobardo Reyes(一个来自墨西哥的学生团队)发表了一篇论文,可以对reCAPTCHA验证码的图像达到82%的处理准确率。另外,还有很多其他的研究和黑客攻击,尤其是那些经常包含音频组件的验证码图像(包含该组件的目的是用于无障碍访问)。
针对你遇到的网络爬虫来说,不太可能需要比OCR或基于API的验证码服务更多的验证码处理功能,不过如果你对尝试训练自己的模型感兴趣的话,首先需要找到或创建正确解码的大型验证码数据集。深度学习和计算机视觉都是正在快速发展的领域,很有可能在本书出版后,会有更多的研究和项目发表!