给我看看什么是我的
给我看看什么是我的
原文:https://medium.com/hackernoon/beneath-this-mask-is-data-part-3-or-show-me-what-is-mine-ef3a3f05ee0

“如果你不想死,就跟我来”——在《乐高电影》中 Wyldstyle 对 Emmet 说
政府和其他公共机构总是收集关于人口、土地、天气等的数据。出于管理、更好的治理、规划和战略等原因。直到几十年前,大多数普通人都可以通过纸张等相当原始的格式访问这种类型的数据,在极少数情况下,还可以通过 excel 表格等形式访问。这些数据的用途多种多样,从社会科学研究、高中项目到盈利服务和战略制定(如规划房地产项目)。《开放数据手册》将开放数据定义为“某些数据应该免费提供给每个人使用和重新发布,不受版权、专利或其他控制机制的限制”。从某种意义上说,政府数据,如人口普查信息、土地使用研究、预算等。都是开放数据的形式。正如你所注意到的,开放数据一直存在。是什么让这个想法如此具有开创性?
信息的可用性和获取信息的能力之间几乎没有关联。摩尔定律带来的计算能力的提高和互联网的普及是这个难题的关键部分。像英特尔和微软这样的公司已经成为带来计算机革命的先锋。比尔·盖茨让每张桌子上都有电脑的愿景确实鼓舞人心,并在很大程度上成为开放数据革命的催化剂。随着互联网的出现和普及,获取信息变得更加容易。
互联网之前和之后
你们这些来自互联网时代之前的人应该知道,在申请护照或选民身份证等官方文件时,试图获取哪怕是最微小的信息是多么痛苦。

现在想象一个没有互联网的世界,从这个意义上说,像政府这样的大组织和你之间几乎没有交流的可能。政府已经发布了大量的数据,而你内心深处的怪胎想要玩弄这些数据。你走遍了多个政府办公室,会见了无数官员,不知何故,经过几个月的努力工作,你得到了数据。他们递给你一本书或一个实体文件,里面所有的东西都是打印出来的,或者更糟,是手写的。你现在累了,但你不是一个半途而废的人。你手动筛选文档,手工制作大量图表,进行统计计算,发现将改变世界的革命性见解。但是,你如何告诉人们你的发现呢?你决定写一本书,举行公开会议,并希望这个想法传播开来。已经一年多了;大多数正常人现在都会放弃。你不正常,对吗?

现在想象一下,当我们在上面的场景中包括互联网时会发生什么。政府具有前瞻性思维,并在其网站上发布了大量数据。你内心的怪胎想要摆弄这些数据。你去政府网站把数据下载到你的电脑上。更好的是,政府足够聪明,以机器可读的格式发布这些数据,这意味着这些数据以 CSV 或 Excel 文件中的值和数字的形式存在,这些文件本质上是表格,或者以 JSON、GeoJSON 等新时代数据结构的格式存在。你为计算机编写一个程序来筛选这些数据。计算机生成许多图表,在几分钟内完成统计计算。你会在几天内发现关于数据的革命性见解。你不是个天才吗?世界需要知道这件事。你使用推特、脸书、电子邮件来传播想法,你写博客,你在社交媒体上组织活动,通过 Skype 与有影响力的人交流。到现在已经几个星期了;你已经是个伪名人了。
创新的本质是发展经常来自不可能的地方——开放数据手册

等等!这也许根本不会发生,也许没人会发现你的天才。这不是重点。虽然在两种情况下任务或多或少是相同的,但是当我们把互联网放入等式中时,你可以看到执行任务所需的时间呈指数级减少。当你为人们提供了一种可以轻松访问和使用数据的媒介时,你就激励了他们使用这些数据。这是一个信息,表明我们的公共机构信任我们。一旦数据存在并易于获取,创新和发现就变成了一个“打字机上的猴子”问题。“打字机上的猴子”或“无限猴子定理”是纳西姆·尼古拉斯·塔勒布在他的书《被随机性愚弄》中提出的一个关于随机性的理论。它指出,如果你有 10 亿的 10 亿次方只猴子(这意味着很多猴子),每只猴子都有一台打字机,并让猴子随机敲击键盘:很有可能其中一只猴子纯属偶然地写出了《伊利亚特》或《摩诃婆罗多》。

我相信这个理论也适用于开放数据场景,或多或少在相似的数量级上。如果你让一大群人轻松访问丰富的数据集,仅仅根据大数定律,某个地方的某个人一定会发现一些有趣的东西,可能是科学家、活动家、大学研究员,甚至是高中生。
页(page 的缩写)S
本文是系列文章的第三部分。以下是之前帖子的链接:
参考

Business, business, numbers, numbers!