01-数据抓取

选择背景色：黄橙洋红淡粉水蓝草绿白色选择字体：宋体黑体微软雅黑楷体选择字体大小：小中大特恢复默认

[toc]

在上一章中，我们构建了一个爬虫，可以通过跟踪链接的方式下载所需的网页。虽然这个例子很有意思，却不够实用，因为爬虫在下载网页之后又将结果丢弃掉了。现在，我们需要让这个爬虫从每个网页中抽取一些数据，然后实现某些事情，这种做法也称为 抓取（scraping） 。

首先，我们会介绍一些浏览器工具，用于查看网页内容，如果你有一些Web开发背景的话，可能已经对这些工具十分熟悉了。然后，我们会介绍3种抽取网页数据的方法，分别是正则表达式、Beautiful Soup和lxml。最后，我们将对比这3种数据抓取方法。

在本章中，我们将介绍如下主题：