当前位置:嗨网首页>书籍在线阅读

06-提前终止爬取

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

7.2.3 提前终止爬取

Scrapy的CloseSpider扩展可以在达成某个条件时,自动终止爬虫爬取。可以分别使用 CLOSESPIDER_TIMEOUT (以秒计)、 CLOSESPIDER_ITEMCOUNTCLOSESPIDER_PAGECOUNT 以及 CLOSESPIDER_ERRORCOUNT 这些设置,配置在一段时间后、抓取一定数量item后、接收到一定数量响应后或是遇到一定数量错误后,关闭爬虫。通常情况下,你会在运行爬虫时使用命令行的方式设置这些内容,我们已经在前面的几章中做过几次此类操作。

$ scrapy crawl fast -s CLOSESPIDER_ITEMCOUNT=10
$ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=10
$ scrapy crawl fast -s CLOSESPIDER_TIMEOUT=10