23-小结
15.5 小结
文本信息不仅仅是纯文本文件,实际上,很有可能更经常遇到的是PDF和Word文档。可以利用 PyPDF2
模块来读写PDF文档。遗憾的是,从PDF文档读取文本并非总是能得到完美转换的字符串,因为PDF文档的格式很复杂,某些PDF可能根本读不出来。在这种情况下,你就不太走运了,除非将来PyPDF2更新,支持更多的PDF功能。
Word文档更可靠,可以用 python-docx
模块来读取。可以通过 Paragraph
和 Run
对象来操作Word文档中的文本。可以设置这些对象的样式,尽管必须使用默认的样式或文档中已有的样式;可以添加新的段落、标题、换行换页符和图像,尽管只能在文档的末尾添加。
在处理PDF和Word文档时有很多限制,这是因为这些格式的本意是很好地展示给人看,而不是让软件易于解析。下一章将探讨存储信息的另外两种常见格式:JSON和CSV文件。这些格式是设计给计算机使用的。你会看到,Python处理这些格式要容易得多。