当前位置:嗨网首页>书籍在线阅读

03-喜欢Scrapy的更多理由

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

1.2 喜欢Scrapy的更多理由

Scrapy已经拥有超过5年的历史了,成熟而又稳定。除了上一节中提到的性能优势外,还有下面这些能够让你爱上Scrapy的理由。

  • Scrapy能够识别残缺的HTML

你可以在Scrapy中直接使用Beautiful Soup或lxml,不过Scrapy还提供了一种在lxml之上更高级的XPath(主要)接口—— selectors 。它能够更高效地处理残缺的HTML代码和混乱的编码。

  • 社区

Scrapy拥有一个充满活力的社区。只需要看看https://groups. google.com/ forum/#!forum/scrapy-users 上的邮件列表,以及Stack Overflow网站(http:// stackoverflow.com/questions/tagged/ scrapy)中的上千个问题就可以知道了。大部分问题都能够在几分钟内得到回应。更多社区资源可以从http://scrapy.org/ community/中获取到。

  • 社区维护的组织良好的代码

Scrapy要求以一种标准方式组织你的代码。你只需编写被称为爬虫和管道的少量Python模块,并且还会自动从引擎自身获取到未来的任何改进。如果你在网上搜索,可以发现有相当多专业人士拥有Scrapy经验。也就是说,你可以很容易地找到人来维护或扩展你的代码。无论是谁加入你的团队,都不需要漫长的学习曲线,来理解你的自定义爬虫中的特别之处。

  • 越来越多的高质量功能

如果你快速浏览发布日志(http://doc.scrapy.org/en/latest/ news.html),就会注意到无论是在功能上,还是在稳定性/bug修复上,Scrapy都在不断地成长。