11-编写第一个网络爬虫
[toc]
1.5 编写第一个网络爬虫
为了抓取网站,我们首先需要下载包含有感兴趣数据的网页,该过程一般称为 爬取(crawling) 。爬取一个网站有很多种方法,而选用哪种方法更加合适,则取决于目标网站的结构。本章中,我们首先会探讨如何安全地下载网页,然后会介绍如下3种爬取网站的常见方法:
- 爬取网站地图;
- 使用数据库ID遍历每个网页;
- 跟踪网页链接。
到目前为止,我们交替使用了抓取和爬取这两个术语,接下来让我们先来定义这两种方法的相似点和不同点。
[toc]
为了抓取网站,我们首先需要下载包含有感兴趣数据的网页,该过程一般称为 爬取(crawling) 。爬取一个网站有很多种方法,而选用哪种方法更加合适,则取决于目标网站的结构。本章中,我们首先会探讨如何安全地下载网页,然后会介绍如下3种爬取网站的常见方法:
到目前为止,我们交替使用了抓取和爬取这两个术语,接下来让我们先来定义这两种方法的相似点和不同点。