当前位置:嗨网首页>书籍在线阅读

23-小结

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

15.5 小结

文本信息不仅仅是纯文本文件,实际上,很有可能更经常遇到的是PDF和Word文档。可以利用 PyPDF2 模块来读写PDF文档。遗憾的是,从PDF文档读取文本并非总是能得到完美转换的字符串,因为PDF文档的格式很复杂,某些PDF可能根本读不出来。在这种情况下,你就不太走运了,除非将来PyPDF2更新,支持更多的PDF功能。

Word文档更可靠,可以用 python-docx 模块来读取。可以通过 ParagraphRun 对象来操作Word文档中的文本。可以设置这些对象的样式,尽管必须使用默认的样式或文档中已有的样式;可以添加新的段落、标题、换行换页符和图像,尽管只能在文档的末尾添加。

在处理PDF和Word文档时有很多限制,这是因为这些格式的本意是很好地展示给人看,而不是让软件易于解析。下一章将探讨存储信息的另外两种常见格式:JSON和CSV文件。这些格式是设计给计算机使用的。你会看到,Python处理这些格式要容易得多。