当前位置:嗨网首页>书籍在线阅读

08-估算网站大小

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

[toc]

1.4.3 估算网站大小

目标网站的大小会影响我们如何进行爬取。如果是像我们的示例站点这样只有几百个URL的网站,效率并没有那么重要;但如果是拥有数百万个网页的站点,使用串行下载可能需要持续数月才能完成,这时就需要使用第4章中介绍的分布式下载来解决了。

估算网站大小的一个简便方法是检查Google爬虫的结果,因为Google很可能已经爬取过我们感兴趣的网站。我们可以通过Google搜索的 site 关键词过滤域名结果,从而获取该信息。我们可以从 http://www.google.com/advanced_search 了解到该接口及其他高级搜索参数的用法。

在域名后面添加URL路径,可以对结果进行过滤,仅显示网站的某些部分。

同样,你的结果可能会有所不同;不过,这种附加的过滤条件非常有用,因为在理想情况下,你只希望爬取网站中包含有用数据的部分,而不是爬取网站的每个页面。