10-寻找网站所有者
[toc]
1.4.5 寻找网站所有者
对于一些网站,我们可能会关心其所有者是谁。比如,我们已知网站的所有者会封禁网络爬虫,那么我们最好把下载速度控制得更加保守一些。为了找到网站的所有者,我们可以使用 WHOIS 协议查询域名的注册者是谁。Python中有一个针对该协议的封装库,其文档地址为 https://pypi.python.org/pypi/python-whois ,我们可以通过 pip 进行安装。
pip install python-whois
下面是使用该模块对 appspot.com 这个域名进行 WHOIS 查询时返回结果的核心部分。
>>> import whois
>>> print(whois.whois('appspot.com'))
{
...
"name_servers": [
"NS1.GOOGLE.COM",
"NS2.GOOGLE.COM",
"NS3.GOOGLE.COM",
"NS4.GOOGLE.COM",
"ns4.google.com",
"ns2.google.com",
"ns1.google.com",
"ns3.google.com"
],
"org": "Google Inc.",
"emails": [
"[email protected]",
"[email protected]"
]
}
从结果中可以看出该域名归属于Google,实际上也确实如此。该域名是用于Google App Engine服务的。Google经常会阻断网络爬虫,尽管实际上其自身就是一个网络爬虫业务。当我们爬取该域名时需要十分小心,因为Google经常会阻断抓取其服务过快的IP;而你,或与你生活或工作在一起的人,可能需要使用Google的服务。我经历过在使用Google服务一段时间后,被要求输入验证码的情况,甚至只是在对Google域名运行了简单的搜索爬虫之后。