当前位置:嗨网首页>书籍在线阅读

06-处理复杂验证码

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

[toc]

7.3 处理复杂验证码

前面用于测试的验证码系统相对来说比较容易处理,因为文本使用的黑色字体与背景很容易区分,而且文本是水平的,无须旋转就能被Tesseract准确解析。一般情况下,网站使用的都是类似这种比较简单的通用验证码系统,此时可以使用OCR方法。但是,如果网站使用的是更加复杂的系统,比如Google的reCAPTCHA,OCR方法则需要花费更多努力,甚至可能无法使用。

在这些例子中,因为文本被置于不同的角度,并且拥有不同的字体和颜色,所以要使OCR方法准确的话,需要更多工作来清理以及预处理这些图像。这些高级验证码,甚至有时连人类都很难解析,对于一个简单的脚本来说就更加困难了。