[toc]
本章中,我们了解到缓存已下载的网页可以节省时间,并能最小化重新爬取网站所耗费的带宽。不过,缓存页面会占用磁盘空间,而我们可以使用压缩的方式缓解一些空间占用。此外,在类似Redis的现有存储系统的基础之上创建缓存,可以有效避免速度、内存以及文件系统的限制。
下一章中,我们将为爬虫添加更多的功能,从而实现并发下载网页,使爬虫运行得更快。