05-爬虫和中间件的变化
11.4 爬虫和中间件的变化
为了构建该系统,我们需要稍微对Scrapy爬虫进行修改,并且需要开发爬虫中间件。更具体地说,我们必须执行如下操作:
- 调整索引页爬取,以最大速率执行;
- 编写中间件,分批发送URL到Scrapyd服务器;
- 使用相同中间件,允许在启动时使用批量URL。
我们将尝试使用尽可能小的改动来实现这些变化。理想情况下,整个操作应该清晰、易理解并且对其依赖的爬虫代码透明。这应该是一个基础架构层级的需求,如果想对爬虫(可能数百个)进行修改来实现它则是一个坏主意。