大数据的地理空间问题

大数据的地理空间问题

原文:https://medium.com/hackernoon/big-datas-geospatial-problem-25caf3971a57

地理空间一直是大数据中最大的。这种数据洪流也不仅仅来自传感器。每天,个人位置数据量比社交媒体创建的所有数据都多,这一事实让许多人感到惊讶。如果你相信围绕智能传感器、移动和自主平台的宣传的一小部分,那么在不久的将来,位置感知数据量将迅速增长,超过公司已经收集的千兆字节。

那么,用于分析地理空间、传感器和位置数据的大数据平台都在哪里呢?

它们基本上不存在。

事实证明,分析物理世界与分析虚拟世界需要不同的计算机科学。Hadoop、Spark 和无数其他大数据平台都是为满足虚拟世界的需求而专门构建的。尽管如此,仍有数十亿美元投资于市场,这些市场的愿景是基于大规模进行时空分析的能力。很少有人注意到有能力的平台的缺乏。

不幸的大数据网络偏见

大数据平台最初是为了理解网络而开发的。web 的核心是一个包含其他文档链接的文档集合。出于大多数 web 分析的目的,为每个文档分配一个编号,也为文档中包含的每个链接或单词或图像分配一个编号,唯一地标识这些实体中的每一个,以便可以对它们进行计数并对关系进行排序。世界上一些最大的公司都是围绕他们收集这些数据并分析它们之间关系的能力而建立的。

另一方面,地理空间和传感器数据模型不能以这种方式简化为数字。它们的基本数据关系是围绕形状建立的。“飓风桑迪”的名字可以简化为一个数字,但它的物理表现形式是一个复杂的形状,在空间和时间中变化和移动。为了分析这些数据,我们必须能够快速直接地分析移动、变化的形状之间的复杂关系。即使使用本身没有形状的数据,如我所在位置的坐标,分析也经常涉及从这些坐标集合中构建形状,如我在城市中的路径。

这就是问题所在。为分析互联网而创建的平台只适用于基本元素可以用唯一数字表示的数据模型。事实上,在像 Hadoop 这样的平台被发明的时候,计算机科学并不存在来创建一个大规模分析形状关系的平台。当计算机科学在几年后发展起来的时候,人们发现这种形状分析的能力不能被改造到不是为它专门构建的平台上。惯性是一种强大的东西,大数据生态系统尚未适应。

将大数据带入传感器时代

解决 2007 年已经解决的计算机科学的根本问题是必要的,但还不够。很长一段时间以来,我一直在为地理空间分析设计基础设施,从十年前为谷歌地球设计实时传感器层开始。还有两个额外的要求,缺少这两个要求就像缺少合适的平台架构一样扼杀了许多地理空间和传感器驱动的应用程序。

首先,您需要一个平台下的数据库引擎,它能够以线速连续索引和存储高速传感器数据,同时进行实时查询。这种性能在使用廉价硬件的基于磁盘的商业系统中是可用的,但在开源系统中很少见,并且内存中的平台对于数据量来说太小。开源在这方面可以做得更好,这会对经济产生负面影响。

其次,你需要一个几何引擎——计算形状之间数学关系的软件——它具有适合大规模地理空间分析的正确性、精确度和性能,而不是制作地图的宽松要求。不幸的是,正如我自己的经验所显示的,忽略这一点会导致一系列令人震惊的阴险的分析错误。这不是一个微不足道的挑战,GIS 数据库中的现有实现显然是有缺陷的。我们在 SpaceCurve 建立了一个分析级的几何引擎,这可能是唯一存在的引擎,但它需要一个专家团队来研究和开发。

好消息是,正如 SpaceCurve 等产品巧妙地证明的那样,有可能创建一个专门用于分析物理世界的大数据平台。然而,我无法指出一个成熟或不成熟的开源大数据平台能够充分解决上述三个问题中的任何一个。然而,许多新公司都是在这样的假设下创建的,即可扩展时空分析是一个障碍,使用他们已经知道的工具可以不费吹灰之力就可以清除。事实上,在流行的大数据平台的需求和实际可用能力之间存在巨大的鸿沟,这将很快变得明显。

黑客中午是黑客如何开始他们的下午。我们是 @AMI 家庭的一员。我们现在接受投稿,并乐意讨论广告&赞助机会。

如果你喜欢这个故事,我们推荐你阅读我们的最新科技故事趋势科技故事。直到下一次,不要把世界的现实想当然!


本站为非盈利网站,作品由网友提供上传,如无意中有侵犯您的版权,请联系删除