当前位置:嗨网首页>书籍在线阅读

01-爬虫基础

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

第3章 爬虫基础

这是非常重要的一章,你可能会多次阅读本章,并且经常会在寻找解决方案时回到本章中。我们首先会介绍如何安装Scrapy,然后伴随若干示例及不同的实现,转向开发Scrapy爬虫的方法论。在开始之前,我们先来看一些重要的概念。

由于我们会快速进入有趣的代码部分,因此使用本书中代码片段的能力非常重要。当你看到如下内容时:

$ echo hello world
hello world

表示你在终端输入了 echo hello word (忽略美元符号),接下来的一行或几行就是你在终端上面看到的输出。

我们将会混用“终端”、“控制台”和“命令行”这几个术语,它们在本书的背景下没有太大区别。请用Google搜索并找出如何启动你所使用的平台(Windows、OS X或其他)中的控制台。你也可以在附录A中找到详细的指引。

当你看到如下内容时:

>>> print 'hi'
hi

表示你在Python或Scrapy的shell提示符中输入了 print 'hi' (忽略>>>)。同样地,接下来的一行或几行就是你在终端上面看到的该命令的输出。

在本书中,你还需要编辑文件。你所使用的工具很大程度上依赖于你的环境。如果你使用Vagrant(强烈推荐),可以使用电脑或笔记本中诸如Notepad、Notepad++、Sublime Text、TextMate、Eclipse或PyCharm等编辑器。如果你有更多的Linux或UNIX使用经验,也可能更喜欢直接使用Vim或Emacs在控制台中编辑文件。这两种编辑器都很强大,不过需要一定的学习曲线。如果你是一个初学者,并且不得不在控制台中编辑某些东西,那么也可以尝试对初学者更加友好的nano编辑器。