06-提前终止爬取
7.2.3 提前终止爬取
Scrapy的CloseSpider扩展可以在达成某个条件时,自动终止爬虫爬取。可以分别使用 CLOSESPIDER_TIMEOUT
(以秒计)、 CLOSESPIDER_ITEMCOUNT
、 CLOSESPIDER_PAGECOUNT
以及 CLOSESPIDER_ERRORCOUNT
这些设置,配置在一段时间后、抓取一定数量item后、接收到一定数量响应后或是遇到一定数量错误后,关闭爬虫。通常情况下,你会在运行爬虫时使用命令行的方式设置这些内容,我们已经在前面的几章中做过几次此类操作。
$ scrapy crawl fast -s CLOSESPIDER_ITEMCOUNT=10
$ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=10
$ scrapy crawl fast -s CLOSESPIDER_TIMEOUT=10