医学和对人工智能的需求

原文：https://medium.com/hackernoon/medicine-and-the-need-for-ai-dbb3f9e2349f

我最初写这篇文章是为了给我在 doc.ai 的同事做一份 R&D 内部指导文件。我们决定公开分享它，因为我们觉得让尽可能多的人思考这些问题很重要。

医学在历史上一直是一个手工职业——也就是说，它专注于个体医生的技能和经验，而不是寻求建立一个诊断和治疗患者的标准化流程。近年来，随着循证医学和精确医学等倡议试图将额外的严谨性和数据驱动的实践注入该领域，这种情况开始发生变化。然而，绝大多数医疗保健是通过传统的希波克拉底哲学提供的。

这需要改变。地球上最大的人口中心拥有不到 1/10 的所需医生，需要数百年才能填补缺口。误诊、晚期诊断和过度诊断导致数百万人死亡，并造成数百亿美元的损失。这项技术目前正在开发中，以解决这一问题——在医务工作者和患者需要时，为他们提供所需准确信息的清晰摘要。这种技术可以让偏远地区的社区卫生工作者接触到世界医学知识的精华。它可以让发达国家的医生大大提高工作效率和准确性，同时让患者和家人对他们的医疗保健有更多的控制权和洞察力。

人工智能，特别是深度学习，已经表明它可以成为一个强大的诊断工具，例如，在医学成像工作中表现出超人的表现，例如:

挑战

标记的历史数据

人们普遍认为，深度学习算法需要大量数据才能有效。这不一定是真的。例如，Enlitic 的肺癌算法只能获得 1000 名癌症患者的扫描结果。尽管数据集(来自国家肺部筛查试验)相对较小，但它具有允许有效建模的关键特征，理解这一点很重要:

它包含了每个病人 3 年的年度扫描；随着时间的推移，观察疾病的发展对创建诊断算法至关重要
放射科医生提供了显示结节大致位置的注释，使算法能够专注于重要信息
该数据集包括每个患者在 3 年试验后的医疗结果信息——显示患者存活率等信息的标签是创建诊断系统所必需的。

看看这个项目不能提供什么也是有用的:治疗建议。因为数据集不包含显示提供了什么干预以及他们如何反应的患者的纵向数据，所以开发的算法仅对诊断有用，而不是治疗计划。

然而，即使这也是非常强大的:目前被诊断患有肺癌的人的死亡率接近 90%，结节直到平均尺寸为 40 毫米时才被发现。Enlitic 开发的系统可靠地发现了 5 毫米或更小的结节。如果发现得早，存活几率会高出 10 倍！

现在想想这种数据集有多不寻常。我们多长时间能访问一次包含患者多年期间所有测试、诊断和干预信息的统一病历？信息分布在多个机构中，以及一个机构内的多个部门中。

法律保守主义

即使数据在一个中心位置可用，或者可以从多个来源拼凑在一起，但通常情况下，持有数据的机构对与能够构建这些强大算法的数据科学家共享数据持谨慎态度。法律工作人员认识到，隐私的一次失败可能会结束他们的职业生涯，并使他们的机构损失数百万美元，而错过机会的理论成本(从说“不”到数据请求)很难确定。

然而，当患者被问及如果未来可以帮助他人，他们是否愿意分享他们的医疗数据时，大多数人都非常乐意允许使用他们的数据——特别是当这种分享可以为他们自己的未来治疗带来更好的选择时。

病人的机会

患者控制的数据

这带来了一个明显的机会:让患者控制自己的医疗数据，包括他们对不同机构和部门的所有访问，以及他们自己收集的信息(如来自可穿戴设备的数据和自我报告的数据)。让这些患者有机会选择与特定项目的特定数据科学家共享这些数据，为他们提供一个安全的数据环境，作为回报，为他们提供:

早期获得由此产生的医学突破
财务报酬
关于由于他们的数据而完成的工作的信息，以及它是如何帮助其他病人的。

这可能是我们看到医学深度学习真正潜力的唯一方式——至少在美国是这样(一些中央管理的国家可能能够通过政府法令创建所需的数据集)。

对于照顾患有罕见或不可治愈疾病的亲人的家庭来说，有一个非常相关的机会:与处于相同情况的其他患者聚在一起，并同意共享患者数据。越多的其他患者可以被带入池中，关键信息可用的机会就越大。

区块链

并非所有数据都是平等的。来自罕见疾病患者的数据对于诊断和治疗这些疾病至关重要。多年的数据比短期数据更有价值。另一方面，不良演员甚至可能伪造数据，企图骗取报酬。

通过使用区块链，我们可以创建清晰的医疗数据源可审计记录。根据这一记录，数据提供者可以根据他们的数据在实践中的有用程度而获得奖励。因此，他们提供的数据越完整、越准确、越相关，奖励就越多。

它还为机构提供了非常有趣的机会，这些机构(在患者同意的情况下)可以向研究人员提供完整的数据集，作为回报，他们可以获得财务回报和使用由数据产生的技术。从长远来看，患者可以授权他们的机构通过同样的区块链方法将他们的数据传递给数据科学家。

数据科学家的机会

大多数数据科学家表示，他们希望用自己的技能做一些有意义的事情，但很少有人有机会。数据科学家的大部分工作是在广告技术、对冲基金交易和产品推荐等领域。阻止他们做更有意义的工作的主要因素是访问数据、知道需要解决什么问题，以及有办法让他们的解决方案得到关注和实施。

为了将数据转化为有用的结果，数据科学家需要能够完成以下步骤(这些步骤实际上会以不同的顺序重复多次):

数据清理
探索性数据分析
创建验证集
建立模型
分析和验证模型

为了完成这些步骤，数据科学家需要一个丰富的分析环境，他们可以在其中使用自己选择的工具、库和可视化解决方案。今天大多数从事这类工作的数据科学家使用 R(一般是 R Studio)或 Python(一般是 Jupyter Notebook)。

通过提供这样一个预先安装了数据并明确定义了要解决的问题的环境，数据科学家可以快速着手解决一个有意义的问题。

多个数据科学家甚至有可能独立研究同一个问题，根据他们工作的效用分享报酬。

我们需要提供什么

数据采集

我们需要让每位患者能够收集和维护他们的个人医疗数据，包括:

实验室测试和成像研究
诊断
处方药物
服用非处方药和补充剂
其他医疗干预
锻炼和饮食记录
家族历史(理想情况下，通过跨家族成员的链接自动维护)
自我报告的进展，如精力水平、快乐水平等
基因组学和其他测试

这意味着能够从每个患者的医疗提供商那里下载数据，既可以在设置时一次性下载，也可以在之后定期下载，还可以使用用于个人健康跟踪的 API 和可穿戴应用程序来导入他们的数据。

数据共享

每个患者都需要能够选择加入或退出对其数据的每个请求。如果系统成功，可能会有许多请求，单独处理每个请求可能会很麻烦，在这种情况下，我们可以让他们制定规则，决定自动接受或拒绝哪些请求，以及哪些请求需要手动干预。

每条数据都需要以可审计的方式标记其来源。它不必存储在患者的设备上；事实上，某些类型的医疗数据对于设备上的存储来说可能太大了。

一旦患者允许项目访问他们的一些数据，这些数据就需要提供给研究人员。每位数据科学家都需要为他们的工作提供丰富的分析环境。这将向他们展示关于他们被要求解决的问题的信息，并展示如何访问项目的数据。

巨大的机会

让患者能够控制他们的医疗数据，让数据科学家能够解决紧迫的医疗问题，这是一个强大的想法。但这只是冰山一角。更大的机会是当模型可以不断改进，然后所有这些模型可以组合时会发生什么。每个数据科学家的特征工程步骤都可以保存下来，供未来的研究人员使用(当他们的方法被重新使用时，他们将得到补偿)，他们预先训练的模型激活可以自动引入新模型，以查看它们是否增加了预测能力。

允许新数据持续改进现有模型要求所有数据源的含义和格式一致。这是一个复杂的话题，但是有经验的数据产品项目经理应该有过去的经验。数据源格式或语义的变化需要预先确定，并且恒定模型测试是至关重要的。

通过重复使用预先训练好的模型，我们获得了将所有数据集中的数据结合起来的所有好处，没有任何后勤或隐私方面的挑战。

这也意味着只有少量数据的罕见病和儿科疾病可以得到有效解决。预先训练的模型将用于分析这些情况下的数据，并且具有很少参数的非常简单的模型可以用于组合它们。

随着我们的发展，这种收集和分析数据的方法将带来新的见解，并将在医务工作者和患者需要时，为他们提供所需确切信息的清晰摘要。