当前位置:嗨网首页>书籍在线阅读

11-编写第一个网络爬虫

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

[toc]

1.5 编写第一个网络爬虫

为了抓取网站,我们首先需要下载包含有感兴趣数据的网页,该过程一般称为 爬取(crawling) 。爬取一个网站有很多种方法,而选用哪种方法更加合适,则取决于目标网站的结构。本章中,我们首先会探讨如何安全地下载网页,然后会介绍如下3种爬取网站的常见方法:

  • 爬取网站地图;
  • 使用数据库ID遍历每个网页;
  • 跟踪网页链接。

到目前为止,我们交替使用了抓取和爬取这两个术语,接下来让我们先来定义这两种方法的相似点和不同点。