当前位置:嗨网首页>书籍在线阅读

13-运行爬虫

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

[toc]

8.5.3 运行爬虫

如果你是以Docker容器的方式运行Portia,那么你可以使用相同的Docker镜像运行 portiacrawl 命令。首先,使用Ctrl + C停止你当前的容器。然后,运行如下命令。

docker run -i -t --rm -v ~/portia_projects:/app/data/projects:rw -v
<OUTPUT_FOLDER>:/mnt:rw -p 9001:9001 scrapinghub/portia portiacrawl
/app/data/projects/<PROJECT_NAME> example.python-scraping.com -o
/mnt/example.python-scraping.com.jl

请确保更新OUTPUT_FOLDER为你想要存储输出文件的绝对路径,PROJECT_NAME变量为你在启动项目时使用的名称(我这里是 my_example_site )。你应该可以看到和运行Scrapy时相似的输出。你可能会注意到有一些错误信息(这是由于未修改下载延迟或并发请求造成的——这两种情况都可以在Web界面中通过修改项目和爬虫的设置来解决)。当使用 -s 选项运行时,你还可以向爬虫传输额外的设置。我的命令如下所示。

docker run -i -t --rm -v ~/portia_projects:/app/data/projects:rw -v
~/portia_output:/mnt:rw -p 9001:9001 scrapinghub/portia portiacrawl
/app/data/projects/my_example_site example.python-scraping.com -o
/mnt/example.python-scraping.com.jl-s CONCURRENT_REQUESTS_PER_DOMAIN=1 -s
DOWNLOAD_DELAY=5