当前位置:嗨网首页>书籍在线阅读

01-从Web抓取信息

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

第12章 从Web抓取信息

当没有Wi-Fi的时候,我才意识到,我在计算机上所做的事有很多实际上是在因特网上做的事,如收邮件、阅读朋友的推特,或回答问题“库特伍德·史密斯(Kurtwood Smith)在出演1987年的《机械战警》之前,演过主角吗?”[1]

因为计算机上如此多的工作都与因特网有关,所以如果程序能上网就太好了。“Web抓取”是一个术语,即利用程序来下载并处理来自Web的内容。例如,Google运行了许多Web抓取程序来对网页进行索引,以实现它的搜索引擎。在本章中,你将学习以下几个模块,让在Python中抓取网页变得很容易。

  • webbrowser:是Python自带的,可打开浏览器获取指定页面。
  • requests:从因特网上下载文件和网页。
  • bs4:解析HTML,即网页编写的格式。
  • selenium:启动并控制一个Web浏览器。selenium能够填写表单,并模拟鼠标在这个浏览器中单击。

77.png

视频讲解

20210224FE86928B.jpg