barba-集团再现性教学大纲

原文：https://medium.com/hackernoon/barba-group-reproducibility-syllabus-e3757ee635cf

Lockheed P-80A airplane (1946). Credit: NASA Commons. — A reminder to test your code.

在我的短文“通往再现性的艰难之路”发表在科学之后，我收到了几封电子邮件和推特，询问更多具体的技巧——既有关于我们在团队中用来培训团队再现性的工具和文件。

*为了满足大众的需求，我在这里收集了我们称之为*“Barba 小组再现性教学大纲”

再现性的十大读数

今年早些时候，我和我的学生奥利维尔开始写一本书的一章，后来是一篇完整的期刊文章；第一个是关于我们的可重复研究工作流程，第二个是关于我们的 CFD 复制研究。这些代表了大约三年的工作，不仅仅是这个项目，而是占用了研究生的大部分时间。作为我们“写作前”任务的一部分，我们决定建立——作为一个集体——我们讨论计算科学中可重复研究的前 10 篇论文的列表。以下是我们目前的阅读清单(从 2016 年 2 月的第一版修改而来):

施瓦布，m .，卡伦巴赫，n .，克拉布特，J. (2000)使科学计算可再现， Comp .Sci。发动机。2(6):61–67，doi:10.1109/5992.881708
Donoho，d .等人(2009)，计算谐波分析中的可再现性研究， Comp。Sci。英语。11(1):8–18，doi:10.1109/mcse . 2009.15
由耶鲁法学院数据和代码共享圆桌会议进行的可重复研究， Comp。Sci。英语。12(5):8–13(2010 年 9 月至 10 月)，doi:10.1109/mcse . 2010.113
彭，R. D. (2011)，计算科学中的可再现性研究，Science334(6060):1226–1227，doi:10.1126/Science . 1213847
迪特尔姆，凯(2012)数值模拟中再现性的极限， Comp。Sci。英语。14(1):64–72，doi:10.1109/mcse . 2011.21
将默认值设置为可再现性(2013)，ICERM 计算和实验数学再现性研讨会报告(普罗维登斯，2012 年 12 月 10 日至 14 日)，斯托登等人(编辑。)，https://icerm.brown.edu/tw12-5-rcem///报告 PDF
Sandve，G. K .等人(2013)，可复制计算研究的十个简单规则， PLOS 公司。生物。(社论)，第 9 卷(10):1–4，doi:10.1371/journal . pcbi . 1003285
Leek，j .和彭，R .(2015)，观点:可重复的研究仍然可能是错误的:采取预防方法，PNAS112(6):1645–1646，doi:10.1073/PNAS . 1421412111
米（meter 的缩写））利伯曼，“可复制性对可复制性——或者反过来？，“2015 年 10 月，http://languagelog.ldc.upenn.edu/nll/?p=21956
Goodman，S. N .，Fanelli，d .，& Ioannidis，J. P. (2016 年)。研究再现性是什么意思？科学转化医学 8(341)，341 PS 12–341 PS 12，doi:10.1126/scitranslmed . AAF 5027

Schwab 等人(2000 年)报告了在 claer bout(T21)实验室(斯坦福大学勘探地球物理学)进行的可重复研究的开创性实例。我们能找到的该小组方法的第一次公开交流可以追溯到 1992 年[1]。那篇论文更详细地描述了工具和过程，但是由于同样的原因，它已经过时了。所以，我们从 CiSE 中的总结叙述开始。Claerbout 小组为他们发表的论文开发了一个自动构建系统，包括所有的分析和数字以及排版文档。他们使用 GNU make、某些标准化的命令(burn、build、view、clean)以及与论文相关的文件集或研究概要的概念(数据集、程序、脚本、参数文件、makefiles)。他们报告说，到目前为止，已经有 14 篇论文使用了该系统，涉及 15 位作者和数百份文件。考虑到二十多年后我们仍在努力更广泛地采用类似的标准，阅读他们对可复制文档的谨慎方法是值得注意的。

跳到多诺霍等人(2009 年)。这可能是第一个明确将可重复研究与开放代码和数据联系起来的团体:

可再生计算研究是对[可信度]危机的必要回应，在这种研究中，所有计算细节——代码和数据——都可以方便地为他人所用。

多诺霍等人告诫说，计算不能自称为科学的第三分支，因为大多数计算结果无法验证。在两个传统分支中，已经存在管理普遍错误的实践标准:演绎科学使用形式逻辑和数学证明，而经验科学使用统计假设检验和详细方法报告。许多科学计算的用户甚至没有试图遵循一个系统的、严格的原则，原则上允许其他人验证他们的声明哎哟！

多诺霍等人引用了 Claerbout 方法的强大影响，并哀叹这些方法仍然没有被广泛应用。本文还重复了 Claerbout 的经典释义:“一篇关于计算科学的文章……不是学术本身，它仅仅是学术广告。真正的奖学金是完整的软件开发环境和生成数字的一整套指令。”(首次出现在该小组 1995 年的一篇论文中【2】。我最喜欢引用多诺霍等人(2009)的话:“…如果研究团队中的每个人都知道他们做的每件事有一天都会被公布以供复制，他们从第一天起就会有所不同。”本文的中间部分描述了 Donoho 小组迄今为止开发的各种计算库；那些部分可以根据读者的兴趣来浏览。接近尾声时，一篇有趣的文章——以问答形式写成——回应了研究人员对重复性工作的典型反对意见。许多这样的反对意见今天仍然是热门话题:它需要时间和努力，我们没有得到任何荣誉，竞争，等等。值得注意的是，最后一个假设性的反对意见是，“真正的可再现性”应该意味着从头开始重新创建结果(而不是从作者提供的代码和数据开始)。反驳:“…如果你的实现没有给出我想要的结果，那就证明不了什么，因为我们不知道它为什么会失败。我们找到这种差异的唯一方法是我们都重复工作…”

耶鲁法律圆桌会议参与者的共同撰写的论文( CiSE ，2010)扩展了通过开放代码和数据实现透明度的主题。他们明确地将可复制的计算研究定义为使计算的所有细节(代码和数据)可用。他们的其他建议包括:为每个版本的数据和代码分配一个唯一的标识符，在每个出版物中描述所使用的计算环境，使用开放许可证和非专有格式，并在开放访问条件下出版(或张贴预印本)。将开放获取与可复制性联系起来的基本原理并不存在，一些人批评了圆桌会议建议的这一方面。它可能源于 Donoho 等人(2009 年)的观点，即“可复制性意味着在互联网上发表”，作者应该保持网站存在，以促进发现和访问他们的研究。然而，可复制的研究和开放存取出版之间的联系是值得怀疑的。另一方面，开放代码和数据是可再生计算研究的有效组成部分。在未来的目标中，耶鲁圆桌会议认识到支持代码和数据引用的重要性，开发工具以促进版本控制、测试和跟踪的重要性，以及标准化各方面的重要性，如术语、所有权、政策。

彭(2011)提出了重现性谱的概念。他说可复制的研究是“当一项研究不可能完全独立复制时，判断科学主张的最低标准。”在这里，我们发现了术语上的明显区别——这一点继续困扰着该领域——研究的完全复制涉及到用不同的方法(和代码)收集新数据，并得出相同或等效的最终结果。(之前在[3]中出现的区别)彭提到了斯隆数字巡天作为一个项目的例子，该项目需要强大的资源来完全复制，因此提出再现性是一个更容易实现的较低标准。在其他域中，完全复制是不现实的或极其昂贵的。彭说，“由于同样的数据被再次分析，再现性达不到完全的复制。”然而，这是评估科学主张质量的最低标准。它要求“数据和用于分析数据的计算机代码对其他人开放。”但是，彭悲叹道“可重复性研究的最大障碍是缺乏一种根深蒂固的文化，这种文化简单地要求所有科学主张都具有可重复性。”

我们列表中的第 5 项(按时间顺序排列)转移到了另一个关注点:涉及并行处理的计算中的数值再现性。在到目前为止的讨论中，可重复研究的概念假设用相同的输入运行相同的代码两次将产生相同的输出。如果计算是串行进行的，这个假设是好的；但是对于并行计算，情况并不总是这样。迪特尔姆(2012 年)在计算力学中应用有限元分析进行了一项实验。用不同数量的处理器执行相同的模拟(相同的代码，相同的输入数据)会得到不同的结果！调查差异和源代码查明了非确定性行为的原因:稀疏线性系统的直接求解器(外部库)。迪特尔姆通过一个例子说明了这是如何发生的:一个向量点积，在几个部分和上并行计算。在每次执行时，单个处理器可以以不同的顺序完成它们的求和部分。在有限精度中，加法是不相关的，最终和取决于部分和的顺序。在这些条件下，确保数值再现性需要在程序中引入人工同步点，代价是额外的运行时间。还有更复杂的技术可用，但结论是在高性能计算中“缺乏可重复性通常是加速算法必须付出的代价。”

ICERM 研讨会报告(2013)基于耶鲁圆桌会议的贡献，特别关注:(1)改变文化和奖励结构；(2)资助机构、期刊和雇主的作用；(3)教授可重复研究的技巧。所需的文化变革包括重视开放和透明。但学术奖励结构设置了关键的障碍:“当前的体系非常重视期刊论文的数量，而几乎不重视可复制性……这不利于在论文上花费额外时间的作者。”此外，软件开发和数据管理并不是有价值的科学活动。该报告提出了几种引入激励的方法，需要资助者、期刊和雇主的领导。许多这样的讨论一直持续到今天，以不同的方式进行(研讨会、期刊社论、博客等)。).

我应该补充一点，我参加了 ICERM 研讨会，做了一个题为“再现性圆周率宣言”的简短发言这次演讲的幻灯片被广泛分享和评论[4]。

Sandve 等人(2013 年)给出了我们可以采取的十项具体措施，以使我们的研究具有可重复性:

对于每一个结果，记录它是如何产生的
避免手动数据操作步骤
存档所有使用的外部程序的准确版本
对所有自定义脚本进行版本控制
尽可能以标准格式记录所有中间结果
对于包含随机性的分析，请注意潜在的随机种子
始终将原始数据存储在图后
生成分层分析输出，允许检查越来越详细的层
将文本陈述与基本结果联系起来
提供对脚本、运行和结果的公共访问

一些共同的思路贯穿了这些建议的大部分。首先，认识到最终结果是一系列中间步骤(分析工作流程)的产物，重现性的关键设备是自动化。第二，将软件作为一个有生命的、不断变化的事物来处理的核心技术是版本控制。最后，用手边最好的工具归档和记录一切。为了培训研究人员，一个不可避免的必然结果是命令行技能是必不可少的。

我们的阅读清单第 8 项(Leek 和 Peng，2015)详细阐述了可重复研究的目的:保护科学的完整性，建立公众对科学结果的信任。尽管可重复的研究仍然会受到不良研究设计、缺失数据或混杂因素的影响，但可重复性增加了我们发现这些缺陷的速度。即便如此，关键是通过培训更多的人掌握数据分析技术来进行预防。Leek 和 Peng 通过他们的大型在线课程为这一目标做出了贡献，他们也认识到了众包研讨会的价值，如软件木工和数据木工。

下一篇是宾夕法尼亚大学著名语言学教授马克·利伯曼的文章。他教授语言学导论，以及语言学中的大数据，生物信号和系统的计算分析和建模(以及其他主题)。他文章的主题是在再现性文献中传播的术语的混乱。他将这种困惑追溯到一次机器学习研讨会的贡献，与之前的论文相比，这里的术语可再生和可复制完全互换了。利伯曼总结道:“既然‘可复制的研究’这个术语从 1990 年就开始使用，而且可复制和可复制之间的技术区别至少从 2006 年就开始了，我们应该拒绝重新创造可复制和可复制这些术语的企图，因为这些术语的概念与 Claerbout、Peng 等人的定义几乎完全相反。”

我们阅读清单上的最后一项是今年早些时候的。Goodman 等人(2016 年)指出，该领域使用的各种术语(例如，可再生与可复制)并不标准化。确证先前研究结果的重要性得到了广泛认可。但是，作者指出，“……‘可重复研究’的现代用法最初不是用于确证，而是用于透明性，应用于计算科学。计算机科学家【错误:地球物理学家】 Jon Claerbout 创造了这个术语，并将其与一个软件平台和一套程序联系起来，该软件平台和程序允许论文的读者看到从原始数据和代码到数字和表格的整个处理过程。……这个概念已经【用于】流行病学、计算生物学、经济学和临床试验……”【提供参考文献】。Goodman 等人支持 Claerbout/Donoho/Peng 的术语，但提出了一个新的词汇，以摆脱困扰文献的混乱:方法再现性(再现性的原始含义)、结果再现性(以前称为复制)和推断再现性。谁知道这个新词汇是否会坚持下去，但我喜欢这篇论文的是它对科学领域之间的差异的巧妙讨论，这些差异影响着每个领域如何解决可重复性问题。例如，在计算研究中，我们习惯于某种程度的决定论，所以方法的可再现性和结果的可再现性是联系在一起的。其他领域必须处理主要的随机可变性。对于大多数计算科学家来说，本文的后半部分将是陌生的，因为它专注于统计显著性测试、临床和临床前研究等问题。然而，很高兴能一瞥科学的另一个世界，在那里 p-hacking 和 HARKing(结果已知后的假设)是一回事。

附加参考

[1] Claerbout，Jon 和 Martin Karrenbach (1992 年)。电子文件赋予可复制的研究新的意义。第 62 安。里面的 Soc 会议。勘探地球物理学，第 601–604 页，doi:10.1190/1.1822162http://library.seg.org/doi/abs/10.1190/1.1822162

[2]巴克海特、J. B .和 d .多诺霍(1995)，小波实验室和可再现研究，载于小波和统计学，由 a .安东尼亚迪斯和 g .奥本海姆编辑，统计学讲义 103:第 55-81 页，doi:10.1007/978–1–4612–2544–7 _ 5

[3] Roger D. Peng，Francesca Dominici 和 Scott L. Zeger (2006)，可重复的流行病学研究，Am。流行病学杂志。163 (9): 783–789.doi: 10.1093/aje/kwj093，http://aje.oxfordjournals.org/content/163/9/783.short

[4] Barba，Lorena A. (2012):再现性 PI 宣言。figshare，doi:10.6084/M9 . fig share . 104539 . v1

原载于 2016 年 10 月 31 日lorenabarba.com。

黑客中午是黑客如何开始他们的下午。我们是 AMI 家庭的一员。我们现在接受投稿并乐意讨论广告&赞助机会。

如果你喜欢这个故事，我们推荐你阅读我们的最新科技故事和趋势科技故事。直到下一次，不要把世界的现实想当然！