06-不同的爬虫类型
[toc]
8.3 不同的爬虫类型
在这个Scrapy的例子中,我们使用了Scrapy的 CrawlSpider ,它在爬取一个或一系列网站时非常有用。Scrapy还有其他几种爬虫,根据网站和想要抽取的内容不同,你可能也会使用到它们。这些爬虫属于如下几个类别。
Spider:普通的抓取爬虫。通常只用于抓取一个类型的页面。CrawlSpider:爬取爬虫。通常用于遍历域名,并从它通过爬取链接发现的页面中抓取一个(或几个)类型的页面。XMLFeedSpider:遍历XML流并从每个节点中抽取内容的爬虫。CSVFeedSpider:与XML爬虫类似,不过此处是解析输出中的CSV行。SitemapSpider:该爬虫通过先解析站点地图,使用不同的规则爬取网站。
这些爬虫都包含在Scrapy的默认安装当中,因此无论何时你想要构建一个新的网络爬虫时,都可以使用它们。在本章中,我们将完成构建第一个爬取爬虫,作为如何使用Scrapy工具的示例。