02-PDF文档
15.1 PDF文档
PDF表示Portable Document Format,使用.pdf文件扩展名。虽然PDF支持许多功能,但本章将专注于最常做的两件事:从PDF读取文本内容和从已有的文档生成新的PDF。
用于处理PDF的模块是 PyPDF2
版本1.26.0。安装这个版本很重要,因为 PyPDF2
的未来版本可能与本书的代码不兼容。要安装它,就要在命令行运行 pip install--user PyPDF2==1.26.0
。这个模块名称是区分大小写的,要确保y是小写,其他字母都是大写(请查看附录A,了解安装第三方模块的所有细节)。如果该模块安装正确,那么在交互式环境中运行 import PyPDF2
,应该不会显示任何错误。
有问题的PDF格式
虽然PDF文档对文本布局非常好,让人们很容易打印并阅读,但软件要将它们解析为纯文本却并不容易。因此, PyPDF2
从PDF提取文本时可能会出错,甚至根本不能打开某些PDF。遗憾的是,你对此没有什么办法, PyPDF2
可能就是不能处理某些PDF文档。话虽如此,但是我至今没有发现不能用 PyPDF2
打开的PDF文档。