06-处理复杂验证码
[toc]
7.3 处理复杂验证码
前面用于测试的验证码系统相对来说比较容易处理,因为文本使用的黑色字体与背景很容易区分,而且文本是水平的,无须旋转就能被Tesseract准确解析。一般情况下,网站使用的都是类似这种比较简单的通用验证码系统,此时可以使用OCR方法。但是,如果网站使用的是更加复杂的系统,比如Google的reCAPTCHA,OCR方法则需要花费更多努力,甚至可能无法使用。
在这些例子中,因为文本被置于不同的角度,并且拥有不同的字体和颜色,所以要使OCR方法准确的话,需要更多工作来清理以及预处理这些图像。这些高级验证码,甚至有时连人类都很难解析,对于一个简单的脚本来说就更加困难了。