当前位置:嗨网首页>书籍在线阅读

14-检查结果

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

[toc]

8.5.4 检查结果

当爬虫完成时,你可以在你创建的输出目录中查看结果。

$ head ~/portia_output/example.python-scraping.com.jl
{"_type": "Example web scraping website1", "url":
"http://example.python-scraping.com/view/Antigua-and-Barbuda-10",
"phone_code": ["+1-268"], "_template": "98ed-4785-8e1b",
"country_or_district_name": ["Antigua and Barbuda"], "population": ["86,754"]}
{"_template": "98ed-4785-8e1b", "country_or_district_name": ["Antarctica"],
"_type": "Example web scraping website1", "url":
"http://example.python-scraping.com/view/Antarctica-9", "population":
["0"]}
{"_type": "Example web scraping website1", "url":
"http://example.python-scraping.com/view/Anguilla-8", "phone_code":
["+1-264"], "_template": "98ed-4785-8e1b", "country_name":
["Anguilla"], "population": ["13,254"]}
...

这里是一些抓取结果的示例。如你所见,它们是JSON格式的。如果你想导出为CSV格式,只需修改输出文件名以 .csv 结尾即可。

只需在网站上点击几下,并且了解一些Docker的说明,你就能够抓取示例网站了!Portia是一个非常方便的工具,尤其适用于简单网站,或是你需要与非开发人员合作时。另一方面,对于更复杂的网站,你始终可以选择是直接在Python中开发Scrapy爬虫,还是使用Portia开发第一个迭代,并使用自己的Python技能对其进行扩展。