当前位置:嗨网首页>书籍在线阅读

01-综合应用

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

[toc]

第9章 综合应用

目前为止,本书介绍的爬虫技术都是应用于一个定制网站,这样可以帮助我们更加专注于学习特定技巧。而在本章中,我们将分析几个真实网站,来看看我们在本书中学过的这些技巧是如何应用的。首先我们使用Google演示一个真实的搜索表单,然后是依赖JavaScript和API的网站Facebook,接下来是典型的在线商店Gap,最后是拥有地图接口的宝马官网。由于这些都是活跃的网站,因此读者在阅读本书时这些网站存在已经发生变更的风险。不过这样也好,因为本章示例的目的是为了向你展示如何应用前面所学的技术,而不是展示如何抓取任何网站。当你选择运行某个示例时,首先需要检查网站结构在示例编写后是否发生过改变,以及当前该网站的条款与条件是否禁止了爬虫。

在本章中,我们将介绍如下主题:

  • 抓取Google搜索结果网页;
  • 调研Facebook的API;
  • 在Gap网站中使用多线程;
  • 对宝马经销商定位页面进行逆向工程。