08-估算网站大小
[toc]
1.4.3 估算网站大小
目标网站的大小会影响我们如何进行爬取。如果是像我们的示例站点这样只有几百个URL的网站,效率并没有那么重要;但如果是拥有数百万个网页的站点,使用串行下载可能需要持续数月才能完成,这时就需要使用第4章中介绍的分布式下载来解决了。
估算网站大小的一个简便方法是检查Google爬虫的结果,因为Google很可能已经爬取过我们感兴趣的网站。我们可以通过Google搜索的 site
关键词过滤域名结果,从而获取该信息。我们可以从 http://www.google.com/advanced_search
了解到该接口及其他高级搜索参数的用法。
在域名后面添加URL路径,可以对结果进行过滤,仅显示网站的某些部分。
同样,你的结果可能会有所不同;不过,这种附加的过滤条件非常有用,因为在理想情况下,你只希望爬取网站中包含有用数据的部分,而不是爬取网站的每个页面。