谷歌开源FHIR标准协议缓冲工具,利用机器学习预测医疗事件

作者: camel 2018-03-04 08:22:35

 在上月26日,谷歌在arXiv上发表的一篇论文《 Scalable and accurate deep learning for electronic health records》( Alvin Rajkomar et al. )。文中他们提出基于快速医疗保健互操作性资源(FHIR)格式的患者EHR原始记录表示,利用深度学习的方法,准确预测了多起医疗事件的发生。

论文摘要如下:

使用电子健康记录(EHR)数据的预测建模预计将推动个人化医疗并提高医疗质量。构建预测性统计模型通常需要从规范化的EHR数据中提取策略预测变量,这是一种劳动密集型过程,且放弃了患者记录中绝大多数信息。我们提出基于快速医疗保健互操作性资源(FHIR)格式的患者全部EHR原始记录的表示。我们证明使用这种表示方法的深度学习方法能够准确预测来自多个中心的多个医疗事件,而无需特定地点的数据协调。我们使用来自两个美国学术医疗中心的去识别的EHR数据验证了我们的方法,其中216,221位成年患者住院至少24小时。在我们提出的序列格式中,这一块EHR数据总计包含了46,864,534,945个数据点,包括临床说明。深度学习模型对预测院内死亡率(AUROC跨站点0.93-0.94),30天无计划再入院率(AUROC 0.75-0.76),延长住院时间(AUROC 0.85-0.86)以及所有患者的最终诊断(频率加权AUROC 0.90)等取得了极高的准确度。在所有情况下,这些模型的表现都优于传统的预测模型。我们还介绍了一个神经网络归因系统的案例研究,该系统说明临床医生如何获得预测的一些透明度。我们相信,这种方法可以为各种临床环境创建准确的、可扩展的预测,且附有在患者图标中直接高亮证据的解释。

在这项研究过程中,他们认为若想大规模的实现机器学习,则还需要对FHIR标准增加一个 协议缓冲区工具 ,以便将大量数据序列化到磁盘以及允许分析大型数据集的表示形式。

昨天,谷歌发布消息称已经开源该协议缓冲区工具。下面为谷歌博文内容,编译如下:

过去十年来,医疗保健的数据在很大程度上已经从纸质文件中转变为数字化为电子健康记录。但是要想理解这些数据可能还存在一些关键性挑战。

  • 首先,在不同的供应商之间没有共同的数据表示,每个供应商都在使用不同的方式来构建他们的数据;

  • 其次,即使使用同一个供应商网站上的数据,可能也会有很大的不同,例如他们通常对相同的药物使用多种代码来表示;

  • 第三,数据可能分布在许多不同表格中,这些表格有些存在交集,有些包含着实验数据,还有些包含着一些生命体征。

采用至少一个基本电子病历系统并拥有经过认证的电子病历系统的非联邦急性护理医院的百分比。Basic的电子健康记录( Electronic Health Record ,EHR)满足EHR系统的基本功能,Certified EHR表示医院已经与EHR有法律协议,但不等同于采用了EHR系统。

快速医疗保健互操作性资源 (Fast Healthcare Interoperability Resources,FHIR)作为一项标准草案,描述的是用于交换电子病历数据格式和数据元以及应用程序界面,该标准由医疗服务标准组织Health Level Seven International制定。这项标准已经解决了这些挑战中的大多数:它具有坚实的、可扩展的数据模型,建立在既定的Web标准之上,并且正在迅速成为个人记录和批量数据访问中事实上的标准。 但若想实现大规模机器学习,我们还需要对它做一些补充 :使用多种编程语言的工具,作为将大量数据序列化到磁盘的有效方法以及允许分析大型数据集的表示形式。

今天,我们很高兴 开源 了FHIR标准的 协议缓冲区工具 ,该工具能够解决以上这些问题。当前的版本支持Java语言,随后很快也将支持C++ 、Go和Python等语言。另外,对于配置文件的支持以及帮助将遗留数据转换为FHIR的工具也将很快推出。

开源地址: https://github.com/google/fhir

协议缓冲区工具: https://developers.google.com/protocol-buffers/

FHIR作为核心数据模型

在过去几年中,我们一直在与学术医疗中心进行合作,利用机器学习的方法“去识别”(de-identified)医疗记录(即剥离任何个人身份信息,以预测未来可能的情况,可以在症候出现前预知患者的需求。),很明显我们需要正视医疗保健数据中的复杂性。事实上,机器学习对于医疗数据来说非常有效,因此我们希望能够更加全面地了解每位患者随着时间的推移发生了什么。作为红利,我们希望拥有一个能够直接应用于临床环境的数据表示。

尽管FHIR标准能够满足我们的大多数的需求,但是使用医疗数据将比“传统”的数据结构更容易管理,并且实现了对立于供应商的大规模机器学习。我们相信缓冲区的引入可以帮助应用程序开发人员(机器学习相关)和研究人员使用FHIR。

协议缓冲区的当前版本

我们已经努力使我们的协议缓冲区表示能够通过编程式访问以及数据库查询。提供的一个示例显示了如何将FHIR数据上传到Google Cloud的BigQuery(注:BigQuery 是 Google 专门面向数据分析需求设计的一种全面托管的 PB 级低成本企业数据仓库。)并将其提供给外部查询。我们也正在添加其他直接从批量数据导出并上传的示例。我们的协议缓冲区遵循FHIR标准(它们实际上是由FHIR标准自动生成的),但也可以采用更优雅的查询方式。

目前的版本还没有包括对训练TensorFlow模型提供支持,但未来将更新。 我们的目标是尽可能地开源我们最近的工作,以帮我们的研究 ,使其更具可重复性并能够适用于现实世界的场景当中。 此外,我们正与Google Cloud中的同事进行密切合作,研究更多用于管理医疗保健数据的工具。

谷歌 开源 机器学习
上一篇:刚刚,李克强总理宣布了人工智能重大消息 下一篇:2018年软件开发的十个预测,少不了大热的区块链和AI
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

机器学习转化为生产力,警惕这4个常见陷阱!

几乎每个人都想在他们的业务中引入机器学习,但是这些人也遇到了一个大问题:让模型可持续发展十分困难,尤其是在云架构的基础上。medium上一位博主也指出了这个问题,并提出了将机器学习模型投入生产的4个常见陷阱。

大数据文摘 ·  1天前
500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

由于缺乏平行数据,小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译 103 种语言的大规模多语言神经机器翻译模型,在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。

机器之心 ·  2天前
机器学习免费跑分神器:集成各大数据集,连接GitHub就能用

搞机器学习的小伙伴们,免不了要在各种数据集上,给AI模型跑分。现在,Papers with Code (那个以论文搜代码的神器) 团队,推出了自动跑分服务,名叫sotabench,以跑遍所有开源模型为己任。

栗子 鱼羊 ·  2天前
大数据为什么不够聪明?机器要如何走向强人工智能

大数据为什么不够聪明?比概率语言更强大的思考工具是什么?科幻电影中的强人工智能到底怎样实现?如何让智能机器像人一样思考?搞清楚因果关系才能拨云见日。

明日情报 ·  2天前
2019机器学习框架之争:与Tensorflow竞争白热化,进击的PyTorch赢在哪里?

2019年,机器学习框架之争进入了新阶段:PyTorch与TensorFlow成为最后两大玩家,PyTorch占据学术界领军地位,TensorFlow在工业界力量依然强大,两个框架都在向对方借鉴,但是都不太理想。

大数据文摘 ·  2天前
机器学习帮你预测电池寿命:精确了解电池还能充几次

电池寿命的确定,是移动硬件发展的重要一环,但是由于电池电化学反应的不确定性以及不同的使用环境和习惯,电池寿命变成了一门玄学。不过柏林的三位小伙伴,利用Tensorflow,在原有的预测体系基础上。更近一步,完成了电池的全寿命预测。

靓科技解读 ·  3天前
PyTorch横扫顶会,TensorFlow退守业界:机器学习框架一年变天

机器学习框架的世界,局势变化过于迅猛,稍不注意就会被抢了地盘。一年前,TensorFlow还是各大顶会论文选择的主流框架,如今顶会几乎成了PyTorch的天下。

鱼羊 栗子 ·  3天前
Nature发文:深度学习系统为什么这么好骗?

今天的人工智能系统经常会出现莫名其妙的 bug。最新一期《自然》杂志上的这篇文章向我们介绍了深度学习为什么如此容易出错,以及解决这些问题的研究方向。

机器之心 ·  4天前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载