14-检查结果
[toc]
8.5.4 检查结果
当爬虫完成时,你可以在你创建的输出目录中查看结果。
$ head ~/portia_output/example.python-scraping.com.jl
{"_type": "Example web scraping website1", "url":
"http://example.python-scraping.com/view/Antigua-and-Barbuda-10",
"phone_code": ["+1-268"], "_template": "98ed-4785-8e1b",
"country_or_district_name": ["Antigua and Barbuda"], "population": ["86,754"]}
{"_template": "98ed-4785-8e1b", "country_or_district_name": ["Antarctica"],
"_type": "Example web scraping website1", "url":
"http://example.python-scraping.com/view/Antarctica-9", "population":
["0"]}
{"_type": "Example web scraping website1", "url":
"http://example.python-scraping.com/view/Anguilla-8", "phone_code":
["+1-264"], "_template": "98ed-4785-8e1b", "country_name":
["Anguilla"], "population": ["13,254"]}
...
这里是一些抓取结果的示例。如你所见,它们是JSON格式的。如果你想导出为CSV格式,只需修改输出文件名以 .csv 结尾即可。
只需在网站上点击几下,并且了解一些Docker的说明,你就能够抓取示例网站了!Portia是一个非常方便的工具,尤其适用于简单网站,或是你需要与非开发人员合作时。另一方面,对于更复杂的网站,你始终可以选择是直接在Python中开发Scrapy爬虫,还是使用Portia开发第一个迭代,并使用自己的Python技能对其进行扩展。