12-抓取总结
[toc]
2.7.1 抓取总结
表2.2总结了每种抓取方法的优缺点。
| 抓取方法 | 性能 | 使用难度 | 安装难度 | | :----- | :----- | :----- | :----- | :----- | :----- | | 正则表达式 | 快 | 困难 | 简单(内置模块) | | Beautiful Soup | 慢 | 简单 | 简单(纯Python) | | Lxml | 快 | 简单 | 相对困难 |
如果对你来说速度不是问题,并且更希望只使用 pip 安装库的话,那么使用较慢的方法(如Beautiful Soup)也不成问题。如果只需抓取少量数据,并且想要避免额外依赖的话,那么正则表达式可能更加适合。不过,通常情况下, lxml 是抓取数据的最佳选择,这是因为该方法既快速又健壮,而正则表达式和Beautiful Soup或是速度不快,或是修改不易。