当前位置:嗨网首页>书籍在线阅读

05-多线程爬虫

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

[toc]

4.3 多线程爬虫

现在,我们将串行下载网页的爬虫扩展成并行下载。需要注意的是,如果滥用这一功能,多线程爬虫请求内容速度过快,可能会造成服务器过载,或是IP地址被封禁。

为了避免这一问题,我们的爬虫将会设置一个 delay 标识,用于设定请求同一域名时的最小时间间隔。

作为本章示例的Alexa网站列表,由于包含了100万个不同的域名,因而不会出现该问题。但是,当你以后爬取同一域名下的不同网页时,就需要注意两次下载之间至少需要1秒钟的延时。