当前位置:嗨网首页>书籍在线阅读

01-并发下载

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

[toc]

第4章 并发下载

在之前的章节中,我们的爬虫都是串行下载网页的,只有前一次下载完成之后才会启动新下载。在爬取规模较小的示例网站时,串行下载尚可应对,但面对大型网站时就会显得捉襟见肘了。在爬取拥有100万网页的大型网站时,假设我们以每秒一个网页的速度持续下载,耗时也要超过11天。如果我们可以同时下载多个网页,那么下载时间将会得到显著改善。

本章将介绍使用多线程和多进程这两种下载网页的方式,并将它们与串行下载的性能进行比较。

在本章中,我们将会介绍如下主题:

  • 100万个网页;
  • 串行爬虫;
  • 多线程爬虫;
  • 多进程爬虫。