当前位置:嗨网首页>书籍在线阅读

02-PDF文档

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

15.1 PDF文档

PDF表示Portable Document Format,使用.pdf文件扩展名。虽然PDF支持许多功能,但本章将专注于最常做的两件事:从PDF读取文本内容和从已有的文档生成新的PDF。

用于处理PDF的模块是 PyPDF2 版本1.26.0。安装这个版本很重要,因为 PyPDF2 的未来版本可能与本书的代码不兼容。要安装它,就要在命令行运行 pip install--user PyPDF2==1.26.0 。这个模块名称是区分大小写的,要确保y是小写,其他字母都是大写(请查看附录A,了解安装第三方模块的所有细节)。如果该模块安装正确,那么在交互式环境中运行 import PyPDF2 ,应该不会显示任何错误。

有问题的PDF格式

虽然PDF文档对文本布局非常好,让人们很容易打印并阅读,但软件要将它们解析为纯文本却并不容易。因此, PyPDF2 从PDF提取文本时可能会出错,甚至根本不能打开某些PDF。遗憾的是,你对此没有什么办法, PyPDF2 可能就是不能处理某些PDF文档。话虽如此,但是我至今没有发现不能用 PyPDF2 打开的PDF文档。