解放军总医院医学创新研究部刘晓莉分享实录(下):常见开源生物医学数据集简介
导读
在解放军总医院举办的第五届“医疗大数据学术交流及 Datathon 活动”会前培训班上,临床医生学习如何综合多源、多模态的数据进行诊断、预后评估及制定治疗方案。
本篇实录为刘晓莉博士分享下篇,聚焦国内外常见开源生物医学数据集,以帮助更多参与 Datathon 活动及临床科研工作者打下坚实基础。
目录
Part 2 国外开源数据库/集介绍
2.1 MIMIC 数据库总览
2.2 elCU-CRD| AmsterdamUMC| HiRID| SICdb| INSPIRE
2.3 MIMIC-IV Waveform | VitalDB | DREAMT
2.4 MIMIC-CXR | VinDr-CXR | CheXpert | BRAX
2.5 UK Biobank
2.6 Global Burden of Disease
Part 3 国内开源数据集/库介绍
3.1 EHR for critically ill patients from ED & PIC database
3.2 China Health and Retirement Longitudinal Study, CHARLS
分享嘉宾 刘晓莉
解放军总医院医学创新研究部工程师
毕业于北京航空航天大学生物与医学工程学院,生物医学工程专业博士。读博期间在麻省理工学院计算生理学实验室进行联合培养,研究方向为围绕急危重症救治场景开展健康状态的评估、动态监测和不良事件的早期预警、便捷化辅助决策支持工具研发等。发表学术论文 25 篇,第一作者和共同一作 8 篇,SCl Q1 区文章 10 篇。申请发明专利 9 项,授权 4 项。协助举办”解放军总医院-麻省理工学院医疗大数据研讨会” 4 次。
以下为实录分享内容
Part 2 国外开源数据库/集介绍
接下来我会介绍一些通过开源数据集,以及我们在这一次 Datathon 活动中会用到的一些多模态数据。首先我会介绍国外开源的数据集和数据库,分为以下 6 个方面,着重会以 MIMIC 数据库的由来和发展作为一个重点进行介绍,其他的就会比较概括性地进行介绍。
2.1 MIMIC
MIMIC 数据库由两位实验室负责人 Roger G. Mark 和 Leo Anthony Cell 带头,并由 Alistair johnson,Tom Pollard,Benjamin Moody 进行主要开发维护工作。新知识的产生以及新型临床工具的创造都离不开相关数据的支持。开放的数据能够加速这一进程,反之就会减缓甚至阻碍其发展。麻省理工学院(MIT)的 Roger G.Mark 教授在 2003 年成功申请了 NIH 项目的一个重要支柱,该项目名为“重症监护中的数据模型与推理整合”,旨在开发和评估先进的 ICU 病人监测与决策知识系统。为了开展这些工作,首先需要构建一个数据档案。该档案应能收集反映真实 ICU 环境的临床数据,如波形数值等,从而为研发更先进的监测与决策算法提供支撑。此外,这些数据还可支持重症监护领域的回顾性研究,并最终向研究社区开放,以激发更广泛的创新研究。该项目主要由 MIT 的 Roger G.Mark 教授领导,同时得到了美国波士顿的贝斯以色列女执事医疗中心(BIDMC)的临床医生、IT 部门以及飞利浦医疗的积极参与和协作。
BIDMC 医院凭借其出色的信息系统软件和硬件支持,为该项目的持续发展与长期延续奠定了坚实基础。该医院拥有长达 40 年历史的高质量信息系统,其 IT 部门及负责人对Roger G.Mark 教授的工作给予了大力支持。此外,ICU 所采用的监护设备来自飞利浦。MIMIC 数据库整个构建流程始于获得 IRB(机构审查委员会)的批准,随后从医院获取数据并转移至 MIT。这些数据经过组织整理,形成了数据库的形式。为确保隐私安全,数据进行了去隐私化处理,并将详细信息以文档形式记录,随后上传至 PhysioNet 平台。用户通过认证后,即可获取 CSV 格式重组的数据。值得一提的是,PhysioNet 平台也是由 Roger G.Mark 教授主导创建的。大多数开源的生理或临床相关数据均可在 PhysioNet 上找到。自 1999 年建立以来,PhysioNet 一直免费向研究人员提供生理信号库及处理工具等资源,极大地方便了相关领域的研究工作。
这张图直观地展示了 MIMIC 数据库的详细构建流程。它融合了 BIDMC 医院的信息系统数据、通过 metavision 系统、外部信息系统等获取患者出院后的信息。这些数据经过格式转换,统一存储在 MIMIC 数据架构中,并经过去隐私化处理。随后,数据被分门别类地存储于不同的模块中。由于 MIMIC 数据集是开源的,用户能够持续使用并提供反馈,经过多轮版本迭代,数据库不断完善,变得更加友好。
下面这张图表概述了 MIMIC 数据库的发展历程。2011 年首次发布之后,MIMIC 已经历了多个版本的迭代。最初的版本基于医院当时的业务系统 CareVue 构建,记录了 2001 年至 2008 年间超过 26,000 名成年患者的数据,涵盖了临床数据和采样率为 125HZ 的生理波形数据。到了 2016 年,MIMIC-III 发布,在此期间,医院的业务系统变更为 metavision,因此 MIMIC-III 整合了这两个业务系统的数据,数据范围扩大至 2012 年,包含了超过 5 万名成年患者和 7,000 多名新生儿的信息,MIMIC-III 主要整理的是一个临床数据库,包括结构化和文本数据。
随后在 2019 年发布了 MIMIC-IV-CXR,这是一个包含胸片放射学报告及相关放射学报告半结构化文本的数据库,记录了 2011 年至 2016 年间从急诊科进入的 65,000 多名患者的 37 万多张影像图片。MIMIC-IV 最早于 2020 年发布,截止 2024 年 7 月已迭代至第三个版本。考虑到用户对最新数据的关注以及数据维护的便捷性,MIMIC-IV 并未纳入 CareVue 的数据,而是专注于 2008 年至 2019 年(最新更新版本纳入 2019 年至 2022 年数据)的数据整合。因此,MIMIC-IV 涵盖了更广泛的时间段和更多患者的数据(包括 COVID 期间),总人次超过 54.6 万,其中 9 万多名患者曾入住 ICU。
此外,MIMIC-IV-Note 版本在 2023 年发布,包含了 14 万多名患者的 33 万多份出院总结报告和 23 万多名患者的200 多万份放射报告。2023 年 9 月,MIMIC-IV-ECG 发布,涵盖了 16 万名患者的 80 多万份 ECG 诊断报告,其中十二导联数据的长度为 10 秒,采样频率为 500HZ。2024 年 1 月,MIMIC-IV-ECHO 发布,涵盖了 2017 年至 2019 年间 4,000 多名患者的超过 50 多万次超声心动图检查记录。
从纵向时间历程来看,MIMIC 自 2011 年至今数据量持续扩增,数据类型也从结构化数据扩展到波形、文本和影像等多种模态。同时,其覆盖范围也从 ICU 扩展至急诊科和普通病房。因此,MIMIC 成为众多相关研究青睐的数据集,能够支持用户进行深入且时间跨度长的研究。
如何使用 MIMIC 数据库呢,首先我们需要访问其官方网站。官网右下角的这张图片展示了 MIMIC-IV 数据库的不同模块及其相关数据。这些数据经过了规整,来源于多个方面,包括 MIMIC-IV-core、MIMIC-IV-Hosp、MIMIC-IV-ICU、MIMIC-IV-ED、MIMIC-IV-CXR、MIMIC-IV-Note 和 MIMIC-III 等。为了更全面地了解 MIMIC 数据库,有两个地方是不可或缺的:一是 PysioNet 上对 MIMIC-IV 的介绍,二是发表在 Scientific Data 上的对该数据集更为详细、系统性的介绍。
接下来,我们具体看看官网上对各个模块的介绍。以 MIMIC-hospital、MIMIC-ED、MIMIC-Note、MIMIC-CXR为例,官网会提供这些模块所提供信息的简短概述。同时,右侧的图会通过箭头指示来展示这些数据之间的关联性,包括信息流转和患者来源的群体。以 Hospital 模块为例,它包括了 omr、provider、admissions、EMR、diagnosis 等相关的表;而 ICU 模块则包括 chartevents,icustays,input/outputevents;ED 模块则包括 triage table,vitalsign table 等信息。
当我们具体查看某一个表时,以住院表(admission table)为例,它会提供关于患者进入医院的相关信息,每一次单独的入院都有一个唯一的标识码,即 hadm_id。这个表还提供了患者的出入院信息、人口统计学信息以及入院类型等详细信息。同时,这个表与其他表之间也有关联,如以 patients 为例,它是以 subject_id(可以理解为患者的身份证号)为关联。在使用住院表时,有一些特殊情况需要注意。例如,对于某些器官缺陷的患者,他们可能在入在医院去世。因此,这类患者的住院时间可能非常短,有时甚至会出现负的住院时长,他们的死亡时间往往早于入院时间。
为了更深入地了解住院表及其相关数据,我们需要仔细阅读官网上的表格介绍。这些介绍通常包括表中各列的数据类型、含义以及可能的取值范围。例如,subject_id 和 hadm_id 都是整形字段,且为非空值,hadm_id 还有特定的数值范围。同时,表中还会详细说明各个时间字段的具体含义,如入院时间等。官网上的介绍还会强调一些重要的入院类型,包括急诊、观察、直接入院等。通过了解这些类型,我们可以更好地理解患者的入院情况和医院的服务流程。
为了直观地认识数据集,我们可以查看一些具体的案例。例如,一名患者因心脏骤停进入 ICU,然后在普通病房接受手术,手术后,患者再次转回 ICU,并最终康复回家。在这个过程中,医院会采集患者的生理生化指标、干预措施以及生命体征等数据。在查看这些数据时,我们需要认真分析要观测的数据的时间范围。有时,由于患者去其他地方做检查或进行其他活动,某些时间段的数据可能会缺失。然而,这并不意味着我们应该放弃这些患者或盲目排除重要指标。相反,我们应该更加深入地分析数据,以确定是否存在其他相关信息或替代指标。
在介绍其他数据库之前,我想先对 MIMIC 数据库中的另外两个模块进行简要介绍。首先是 MIMIC-IV-Note 模块,它主要包含了两类报告:出院总结报告和放射学报告。这些报告为患者提供了重要的医疗信息。接下来是 MIMIC-IV-ECHO 模块,除了之前提到的影像数据外,它还包含了一些额外的表。这些表详细记录了如何与其他结构化的数据或其他类型的数据在数据库中建立关联,目前关于 ECHO 相关的报告仍在整理中,尚未完全公布。因此目前我们只能获取到少部分相关信息。
2.2 elCU-CRD| AmsterdamUMC| HiRID| SICdb| INSPIRE
篇幅所限,本文内容已做精简,如需获取专家完整版视频实录,请点击这里咨询领取。
2024 年第五届 Datathon 医疗大数据活动上,和鲸凭借 ModelWhale 数据科学协同平台,为本次活动 236 名选手、23 支队伍提供了全程支持。ModelWhale 成功构建起临床医生、生物统计师与算法工程师等核心科研人员的协同链路:临床医生可聚焦于科研问题挖掘及临床验证;生物统计师专注于研究方案的科学设计与分析方法筛选;算法工程师着力于数据处理、模型搭建与算法落地。借助 ModelWhale 平台,能将三方的研究进程与成果予以有机整合与有效管理,构建起高效协同生态。
您可点击这里,免费探索 ModelWhale 更多功能。