数据集是新的服务器机房

原文：https://medium.com/hackernoon/data-sets-are-the-new-server-rooms-40fdb5aed6b0

当我在 1999 年开始建立我的第一家公司时，仅启动基础设施就花费了 250 万美元，另外还有 250 万美元的团队成本用于编码、启动、管理、营销和销售我们的软件。所以毫不奇怪，典型的“A 轮”风险投资为 500 万到 1000 万美元。我们不得不购买 Oracle 数据库许可证、UNIX 服务器、Sun Solaris 操作系统、web 服务器、负载平衡器、EMC 存储、用于冗余的磁盘镜像，并且不得不在 Exodus 等地签订为期一年的托管协议。

-马克·苏斯特，在他的文章“理解软件的变化&风险投资行业

在过去 12 年左右的时间里，我们看到了一个演变过程，从大型传统风险投资公司在第一轮融资中为每家公司投资 500 万至 1000 万美元，到投资 100 万至 300 万美元(被称为“种子轮”)的“微型”风险投资公司的出现。这种演变也催生了规模更小的公司，在被称为“种子前期”的阶段进行几轮几十万美元的投资。

正如 Mark Suster 在上面链接的帖子中所写的，开源软件和云计算的出现彻底清除了创办公司的成本和障碍，导致了通货紧缩经济学，一两个人可以在没有大量前期成本的情况下创办自己的公司，而这在历史上是风投行业的标志。

这些较低的准入门槛导致了创业公司的“T4 寒武纪大爆发”，但不一定会改变商业规则。如果没有可防御的护城河，几乎不可能创建一个有可持续利润的大公司。

接受风险投资的原因不是为了创业，而是为了在未来产生可观的利润而在今天亏损的情况下配置资本，因此有了权力法则。这种界限已经变得模糊不清，尤其是因为在过去，由于资本远没有今天这么充裕，在某些情况下，前期成本会成为进入的障碍。

然而，同样的技术平台(主要是云计算)以前为创业创造了较低的障碍，今天也可能提供了建立护城河的机会。在这种情况下，初创公司可以在早期筹集大量资金，不是为了服务器和数据库，而是为了收集必要的数据来改进他们的算法，以便建立长期的防御能力。

考虑以下公司融资:

2014 年 6 月， Affirm 筹集了 4500 万美元的首轮融资，这是 Crunchbase 的第一轮融资
在 2014 年 5 月筹集了 210 万美元的种子资金后， x.ai 在 2015 年 1 月筹集了 920 万美元的首轮融资(在 8 个月的时间里总共筹集了 1130 万美元)
据 Crunchbase 报道，2015 年 4 月， Clarifai 在首轮融资中筹集了 1000 万美元
在 2015 年 2 月筹集了 150 万美元的种子资金后， Textio 在 2015 年 12 月筹集了 800 万美元的首轮融资(10 个月内总共筹集了 950 万美元)
就在上周，hanger Technology宣布了一轮 650 万美元的种子投资

所有这些公司有什么共同点？如果你的第一个想法是他们都利用了机器学习、人工智能或计算机视觉，那你就对了。然而，在其核心，机器学习的好处是它提供的正反馈循环，这通常被称为数据网络效应。

从长远来看，算法可能会成为一种商品。由于真正的价值存在于收集的专有数据集中，初创公司在第一天就处于劣势。这就是先发优势真正重要的地方。

当一家初创公司收集必要的数据来支持他们的 ML 算法时，产品/服务提供的价值就会提高，使他们能够接触到更多的客户/用户，从而提供更多的数据等等。

这笔额外的资金可以以多种方式部署，这取决于初创公司希望收集的数据集以及公司的战略和目标市场。

几周前，我会见了一家公司，该公司正在筹集资金，以创建一个实体工作室，允许他们安装摄像头和传感器，以收集人体的视觉数据。他们收集的数据将允许他们建立一个计算机视觉人体扫描仪，可以了解人体的不同特征和细微差别。

当然，正如麦克斯·拉夫琴在本期播客中指出的那样，公司一开始会赔钱(信用卡行业的基本利率可以是他们早期贷款总额的 50%)。然而，正如 Max 所说，随着时间的推移，在该类别中建立可防御业务的唯一方法是从您自己的数据中学习，并收集足够的数据，以便您的承保随着时间的推移不断改进，直到该业务随着时间的推移变得越来越有利可图。因此，通过在早期筹集大量资金，Affirm 可以获得客户以增加交易量，并吸收这些早期损失的影响，以便收集他们专有的数据集。

我不知道所有这些公司收集独特数据集所依赖的战略，但对一些可能性做出假设不会太难。比如 x.ai 向用户推出免费测试版产品，慢慢铺开。我认为这是为了让他们的“人工智能培训师”能够审查产品的交互并标记培训数据，以便为未来的用户改进产品。通过向更多用户推出该产品，并继续从带标签的训练数据中学习，算法可以继续改进，直到该产品可以向公众公开部署，并且用户可能会为此付费。

值得一提的另一点是，收集真实世界的数据越来越成为一个硬件问题，这可能导致更大的轮次(例子包括自动驾驶汽车、机器人、无人机等)。

如果早期亏本收集的数据集可以在未来提供大量利润，那么为什么许多这些公司要么在种子阶段筹集大量资本，要么在第一轮融资后的一年内进行更大规模的融资，这就说得通了。我认为，随着我们生成更多数据，利用这些数据的用例变得更加明显，我们将在未来几年中看到更多这种性质的回合。

因此，虽然利用数据构建优质产品的初创公司可能需要在早期筹集更多资金来让公司起步，但这也可能会在不筹集大量资金的情况下获得高额回报，这些资金是以字母表的后端命名的。如果是这样的话，那么回到风险投资的早期将是一件受欢迎的事情。

感谢 迈克·邓普西 阅读本文并提供反馈。

黑客中午是黑客如何开始他们的下午。我们是 @AMI 家庭的一员。我们现在接受投稿，并乐意讨论广告&赞助机会。

要了解更多信息，请阅读我们的“关于”页面、在脸书上点赞/给我们发消息，或者简单地说， tweet/DM @HackerNoon。

如果你喜欢这个故事，我们推荐你阅读我们的最新科技故事和趋势科技故事。直到下一次，不要把世界的现实想当然！