当前位置:嗨网首页>书籍在线阅读

01-数据抓取

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

[toc]

第2章 数据抓取

在上一章中,我们构建了一个爬虫,可以通过跟踪链接的方式下载所需的网页。虽然这个例子很有意思,却不够实用,因为爬虫在下载网页之后又将结果丢弃掉了。现在,我们需要让这个爬虫从每个网页中抽取一些数据,然后实现某些事情,这种做法也称为 抓取(scraping)

首先,我们会介绍一些浏览器工具,用于查看网页内容,如果你有一些Web开发背景的话,可能已经对这些工具十分熟悉了。然后,我们会介绍3种抽取网页数据的方法,分别是正则表达式、Beautiful Soup和lxml。最后,我们将对比这3种数据抓取方法。

在本章中,我们将介绍如下主题:

  • 分析网页;
  • 抓取网页的方法;
  • 使用控制台;
  • xpath选择器;
  • 抓取结果。