05-多线程爬虫
[toc]
4.3 多线程爬虫
现在,我们将串行下载网页的爬虫扩展成并行下载。需要注意的是,如果滥用这一功能,多线程爬虫请求内容速度过快,可能会造成服务器过载,或是IP地址被封禁。
为了避免这一问题,我们的爬虫将会设置一个 delay
标识,用于设定请求同一域名时的最小时间间隔。
作为本章示例的Alexa网站列表,由于包含了100万个不同的域名,因而不会出现该问题。但是,当你以后爬取同一域名下的不同网页时,就需要注意两次下载之间至少需要1秒钟的延时。
[toc]
现在,我们将串行下载网页的爬虫扩展成并行下载。需要注意的是,如果滥用这一功能,多线程爬虫请求内容速度过快,可能会造成服务器过载,或是IP地址被封禁。
为了避免这一问题,我们的爬虫将会设置一个 delay
标识,用于设定请求同一域名时的最小时间间隔。
作为本章示例的Alexa网站列表,由于包含了100万个不同的域名,因而不会出现该问题。但是,当你以后爬取同一域名下的不同网页时,就需要注意两次下载之间至少需要1秒钟的延时。