13-运行爬虫
[toc]
8.5.3 运行爬虫
如果你是以Docker容器的方式运行Portia,那么你可以使用相同的Docker镜像运行 portiacrawl 命令。首先,使用Ctrl + C停止你当前的容器。然后,运行如下命令。
docker run -i -t --rm -v ~/portia_projects:/app/data/projects:rw -v
<OUTPUT_FOLDER>:/mnt:rw -p 9001:9001 scrapinghub/portia portiacrawl
/app/data/projects/<PROJECT_NAME> example.python-scraping.com -o
/mnt/example.python-scraping.com.jl
请确保更新OUTPUT_FOLDER为你想要存储输出文件的绝对路径,PROJECT_NAME变量为你在启动项目时使用的名称(我这里是 my_example_site )。你应该可以看到和运行Scrapy时相似的输出。你可能会注意到有一些错误信息(这是由于未修改下载延迟或并发请求造成的——这两种情况都可以在Web界面中通过修改项目和爬虫的设置来解决)。当使用 -s 选项运行时,你还可以向爬虫传输额外的设置。我的命令如下所示。
docker run -i -t --rm -v ~/portia_projects:/app/data/projects:rw -v
~/portia_output:/mnt:rw -p 9001:9001 scrapinghub/portia portiacrawl
/app/data/projects/my_example_site example.python-scraping.com -o
/mnt/example.python-scraping.com.jl-s CONCURRENT_REQUESTS_PER_DOMAIN=1 -s
DOWNLOAD_DELAY=5