微服务系列:铲运机
微服务系列:铲运机
原文:https://medium.com/hackernoon/microservice-series-scraper-ee970df3e81f

Universal Scraper Microservice
可扩展的通用刮刀。在几秒钟内抓取数千篇 TechCrunch 文章!
这篇文章是我们将在接下来发布的一系列开源项目的一部分,正如之前在这里描述的。
擦
我最近在做一些机器学习,学习如何创建不同的架构和模型的很大一部分是为了处理现实生活中的数据。有很多很棒的数据集,但我想从头开始构建一个,并选定了 TechCrunch 文章标题(用于科技新闻文章标题生成器)。
有很多方法可以从 TC 等公共网站上抓取这样的简单数据,但是因为我们以前已经做过一些抓取工作,所以我开始构建一个简单的抓取器,它可以使用对 HTML 内容的简单查询来抓取公共元数据和文本。
刮擦声
这就是刮进来的地方。它建立在 stdlib 的基础上,有一个简单的抽象,从它抓取的网站的原始 HTML 中提取数据,以及提取结构化的schema.org和开放图元数据。
它是开源的:
刮刀分布刮刀
github.com](https://github.com/nemo/scrape)
你也可以在 stdlib 这里使用一个生产就绪版本。
抓取 Techcrunch
自然地,在建立了一个分布式的抓取器之后——从像 Techcrunch 这样的网站上抓取大量的文章标题是相当容易的。
这是我用来抓取大约 100 页 Techcrunch 档案的一个小片段:
Techcrunch scraper
几秒钟之内:

Scraped Techcrunch article names
现在让我们从这些数据中寻找乐趣,并提出几个 ML 模型。那是改天的事。
下次你需要以结构化的方式构建一个网站,并且不想投资为它创建基础设施的时候,请随意使用(或分叉) scrape !
如果你想继续关注开源微服务的发布,请关注我的帖子。



