01-并发下载

选择背景色：黄橙洋红淡粉水蓝草绿白色选择字体：宋体黑体微软雅黑楷体选择字体大小：小中大特恢复默认

[toc]

第4章　并发下载

在之前的章节中，我们的爬虫都是串行下载网页的，只有前一次下载完成之后才会启动新下载。在爬取规模较小的示例网站时，串行下载尚可应对，但面对大型网站时就会显得捉襟见肘了。在爬取拥有100万网页的大型网站时，假设我们以每秒一个网页的速度持续下载，耗时也要超过11天。如果我们可以同时下载多个网页，那么下载时间将会得到显著改善。

本章将介绍使用多线程和多进程这两种下载网页的方式，并将它们与串行下载的性能进行比较。

在本章中，我们将会介绍如下主题：

100万个网页；
串行爬虫；
多线程爬虫；
多进程爬虫。

01-并发下载

第4章 并发下载

第4章　并发下载