当前位置:嗨网首页>书籍在线阅读

10-寻找网站所有者

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

[toc]

1.4.5 寻找网站所有者

对于一些网站,我们可能会关心其所有者是谁。比如,我们已知网站的所有者会封禁网络爬虫,那么我们最好把下载速度控制得更加保守一些。为了找到网站的所有者,我们可以使用 WHOIS 协议查询域名的注册者是谁。Python中有一个针对该协议的封装库,其文档地址为 https://pypi.python.org/pypi/python-whois ,我们可以通过 pip 进行安装。

pip install python-whois

下面是使用该模块对 appspot.com 这个域名进行 WHOIS 查询时返回结果的核心部分。

>>> import whois
>>> print(whois.whois('appspot.com'))
 {
 ...
 "name_servers": [
 "NS1.GOOGLE.COM",
 "NS2.GOOGLE.COM",
 "NS3.GOOGLE.COM",
 "NS4.GOOGLE.COM",
 "ns4.google.com",
 "ns2.google.com",
 "ns1.google.com",
 "ns3.google.com"
 ],
 "org": "Google Inc.",
 "emails": [
 "[email protected]",
 "[email protected]"
 ]
 }

从结果中可以看出该域名归属于Google,实际上也确实如此。该域名是用于Google App Engine服务的。Google经常会阻断网络爬虫,尽管实际上其自身就是一个网络爬虫业务。当我们爬取该域名时需要十分小心,因为Google经常会阻断抓取其服务过快的IP;而你,或与你生活或工作在一起的人,可能需要使用Google的服务。我经历过在使用Google服务一段时间后,被要求输入验证码的情况,甚至只是在对Google域名运行了简单的搜索爬虫之后。