05-进一步改善
[toc]
7.2.1 进一步改善
要想进一步改善验证码OCR的性能,下面还有一些可能会使用到的方法:
- 实验不同的阈值;
- 腐蚀阈值文本,突出字符形状;
- 调整图像大小(有时增大尺寸会起到作用);
- 根据验证码字体训练OCR工具;
- 限制结果为字典单词。
如果你对改善性能的实验感兴趣,可以使用本书源码文件中的示例数据,它位于 data/captcha_samples文件夹中 。此外,还有一个脚本用于测试其准确度,它位于本书源码文件的 chp7 文件夹中,其名为 test_samples 。不过,对于我们注册账号这一目的,目前88%的准确率已经足够了,这是因为即使是真实用户也会在输入验证码文本时出现错误。实际上,即使10%的准确率也是足够的,因为脚本可以运行多次直至成功,不过这样做对服务器不够友好,甚至可能会导致IP被封禁。