01-数据抓取
[toc]
第2章 数据抓取
在上一章中,我们构建了一个爬虫,可以通过跟踪链接的方式下载所需的网页。虽然这个例子很有意思,却不够实用,因为爬虫在下载网页之后又将结果丢弃掉了。现在,我们需要让这个爬虫从每个网页中抽取一些数据,然后实现某些事情,这种做法也称为 抓取(scraping) 。
首先,我们会介绍一些浏览器工具,用于查看网页内容,如果你有一些Web开发背景的话,可能已经对这些工具十分熟悉了。然后,我们会介绍3种抽取网页数据的方法,分别是正则表达式、Beautiful Soup和lxml。最后,我们将对比这3种数据抓取方法。
在本章中,我们将介绍如下主题:
- 分析网页;
- 抓取网页的方法;
- 使用控制台;
- xpath选择器;
- 抓取结果。