当前位置:嗨网首页>书籍在线阅读

06-不同的爬虫类型

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

[toc]

8.3 不同的爬虫类型

在这个Scrapy的例子中,我们使用了Scrapy的 CrawlSpider ,它在爬取一个或一系列网站时非常有用。Scrapy还有其他几种爬虫,根据网站和想要抽取的内容不同,你可能也会使用到它们。这些爬虫属于如下几个类别。

  • Spider :普通的抓取爬虫。通常只用于抓取一个类型的页面。
  • CrawlSpider :爬取爬虫。通常用于遍历域名,并从它通过爬取链接发现的页面中抓取一个(或几个)类型的页面。
  • XMLFeedSpider :遍历XML流并从每个节点中抽取内容的爬虫。
  • CSVFeedSpider :与XML爬虫类似,不过此处是解析输出中的CSV行。
  • SitemapSpider :该爬虫通过先解析站点地图,使用不同的规则爬取网站。

这些爬虫都包含在Scrapy的默认安装当中,因此无论何时你想要构建一个新的网络爬虫时,都可以使用它们。在本章中,我们将完成构建第一个爬取爬虫,作为如何使用Scrapy工具的示例。