01-从Web抓取信息
第12章 从Web抓取信息
当没有Wi-Fi的时候,我才意识到,我在计算机上所做的事有很多实际上是在因特网上做的事,如收邮件、阅读朋友的推特,或回答问题“库特伍德·史密斯(Kurtwood Smith)在出演1987年的《机械战警》之前,演过主角吗?”[1]。因为计算机上如此多的工作都与因特网有关,所以如果程序能上网就太好了。“Web抓取”是一个术语,即利用程序来下载并处理来自Web的内容。例如,Google运行了许多Web抓取程序来对网页进行索引,以实现它的搜索引擎。在本章中,你将学习以下几个模块,让在Python中抓取网页变得很容易。
- webbrowser:是Python自带的,可打开浏览器获取指定页面。
- requests:从因特网上下载文件和网页。
- bs4:解析HTML,即网页编写的格式。
- selenium:启动并控制一个Web浏览器。selenium能够填写表单,并模拟鼠标在这个浏览器中单击。