当前位置:嗨网首页>书籍在线阅读

12-抓取总结

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

[toc]

2.7.1 抓取总结

表2.2总结了每种抓取方法的优缺点。

表2.2

| 抓取方法 | 性能 | 使用难度 | 安装难度 | | :----- | :----- | :----- | :----- | :----- | :----- | | 正则表达式 | 快 | 困难 | 简单(内置模块) | | Beautiful Soup | 慢 | 简单 | 简单(纯Python) | | Lxml | 快 | 简单 | 相对困难 |

如果对你来说速度不是问题,并且更希望只使用 pip 安装库的话,那么使用较慢的方法(如Beautiful Soup)也不成问题。如果只需抓取少量数据,并且想要避免额外依赖的话,那么正则表达式可能更加适合。不过,通常情况下, lxml 是抓取数据的最佳选择,这是因为该方法既快速又健壮,而正则表达式和Beautiful Soup或是速度不快,或是修改不易。