01-并发下载
[toc]
第4章 并发下载
在之前的章节中,我们的爬虫都是串行下载网页的,只有前一次下载完成之后才会启动新下载。在爬取规模较小的示例网站时,串行下载尚可应对,但面对大型网站时就会显得捉襟见肘了。在爬取拥有100万网页的大型网站时,假设我们以每秒一个网页的速度持续下载,耗时也要超过11天。如果我们可以同时下载多个网页,那么下载时间将会得到显著改善。
本章将介绍使用多线程和多进程这两种下载网页的方式,并将它们与串行下载的性能进行比较。
在本章中,我们将会介绍如下主题:
- 100万个网页;
- 串行爬虫;
- 多线程爬虫;
- 多进程爬虫。