当前位置:嗨网首页>书籍在线阅读

13-一个Scrapy项目

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

3.3 一个Scrapy项目

提醒一下,你可以从GitHub中获得本书的全部源代码。要下载该代码,可以使用如下命令: 本章的代码在 `ch03` 目录中,其中该示例的代码在 `ch03/properties` 目录中。

到目前为止,我们只是在通过scrapy shell“小打小闹”。现在,既然已经拥有了用于开始第一个Scrapy项目的所有必要组成部分,那么让我们按下Ctrl + D 退出scrapy shell吧。需要注意的是,你现在输入的所有内容都将丢失。显然,我们并不希望在每次爬取某些东西的时候都要输入代码,因此一定要谨记scrapy shell只是一个可以帮助我们调试页面、XPath表达式和Scrapy对象的工具。不要花费大量时间在这里编写复杂代码,因为一旦你退出,这些代码就都会丢失。为了编写真实的Scrapy代码,我们将使用项目。下面创建一个Scrapy项目,并将其命名为" properties ",因为我们正在抓取的数据是房产。

$ scrapy startproject properties
$ cd properties
$ tree
.
├── properties
│  ├── __init__.py
│  ├── items.py
│  ├── pipelines.py
│  ├── settings.py
│  └── spiders
│     └── __init__.py
└── scrapy.cfg
2 directories, 6 files
git clone https://github.com/scalingexcellence/
scrapybook

我们可以看到这个Scrapy项目的目录结构。命令 scrapy startproject properties 创建了一个以项目名命名的目录,其中包含3个我们感兴趣的文件,分别是 items.pypipelines.pysettings.py 。这里还有一个名为 spiders 的子目录,目前为止该目录是空的。在本章中,我们将主要在 items.py 文件和 spiders 目录中工作。在后续的章节里,还将对设置、管道和 scrapy.cfg 文件有更多探索。