暨南大学附属第一医院临床流行病学教研室主任吕军教授实录:重症数据挖掘常用临床研究设计及成熟范式
导读
2024年11月14日至17日,历经为期四天的激烈讨论和跨学科合作,由中国人民解放军总医院医学创新研究部主办的第五届“医疗大数据学术交流及Datathon活动”在北京圆满结束。本次活动汇聚了来自全国各地的临床专家、数据科学家、人工智能专家、临床工程人员以及企业界创新人士。通过丰富的讲座、研讨和实践环节,参会者深入探讨了医疗大数据与人工智能的前沿应用,展示了跨学科合作在医疗领域的巨大潜力与创新成果。
本次活动中,暨南大学附属第一医院临床流行病学教研室主任吕军教授以《重症数据挖掘常用临床研究设计及成熟范式》为分享主题,紧密结合临床工作的实际需求,深入浅出地阐述了重症数据挖掘的“秘籍”。此外,他还对相关的数据库资源进行了详细介绍,并通过具体的研究案例,进一步增强了讲解的实用性和说服力,为与会者提供了宝贵的参考与启示。
分享嘉宾 吕军教授
吕军,研究员,博士/博士后导师。现任暨南大学附属第一医院临床流行病学教研室主任,临床研究管理办公室/临床研究设计部主任、临床研究方法学学科带头人。同时兼任中华医学会临流和循证分会循证学组委员,中国康复医学会循证康复医学委员会副主任委员,中国医促会循证医学分会常务委员,中国医药教育协会医药统计专业委员会委员,广东省护士协会大数据管理分会会长,广东省计算机学会大数据专业委员会委员等职。致力于创新系列医学大数据挖掘的关键技术,已建立起系统的临床研究入门及临床数据挖掘培训体系,已发表研究论文300余篇,其中第一作者和通讯作者SCI论文200余篇,总影响因子>1200,ESI高被引论文7篇,ESI热点论文1篇,CNKI三高论文4篇,累计被引次数8000余次(单篇最高1037次),H指数40。2023中国医院高产学者排名全国第6(同舟云学术排名),2024年度“全球前2%顶尖科学家”。
以下为实录分享内容
01 常用重症数据库——MIMIC数据库简介
在数据收集领域,我们主要依赖两大渠道:一是直接从临床环境中获取数据,二是借助公共数据库资源。临床数据以其高度的原创性和真实性见长,然而,其收集流程相对繁琐,进展较为缓慢。相比之下,公共数据库则提供了一个快速获取海量数据的途径。在公共数据库资源方面,我们有很多选择。其中:
MIMIC数据库以其高度的专业性和广泛的临床专科覆盖范围脱颖而出,成为业界的佼佼者;
eICU数据库以其多中心的数据来源吸引了众多研究者的目光;
欧洲的AmsterdamUMCdb数据库,则以其精细的数据颗粒度和庞大的数据容量(与MIMIC-III样本量相当,但数据容量为其五六倍)著称;
我国浙江省儿童医院的PIC数据库则专注于儿科重症和新生儿ICU的数据。
鉴于数据库种类繁多,难以一一详尽阐述,我将聚焦于MIMIC数据库,为大家简要介绍。
MIMIC是Medical Infromation Mart for Intensive Care(重症监护临床医疗信息数据库)的缩写,专注于ICU数据的全面记录。其创立初衷在于实现ICU内数据的极致整合与收集。目前,该数据库的最新版本为MIMIC-IV 3.1,于今年10月发布,由麻省理工学院的一支团队开发。MIMIC数据库详尽记录了贝斯以色列女执事医疗中心多个ICU科室的数据,涵盖心内ICU、心外ICU、大内科ICU、大外科ICU、创伤ICU及新生儿ICU等关键领域。该数据库涵盖了从2001年至2022年期间的患者数据,拥有超过4万名(另有说法为超过60万名)患者的医疗健康数据和记录。
MIMIC数据库在数据脱敏方面表现出色,有效保障了患者隐私的安全。这提醒我们,在自行收集数据时,务必严格遵守法律,高度重视并妥善保护患者隐私。MIMIC数据库发展至今,经历过三个版本:MIMIC-II、MIMIC-III和MIMIC-IV。其中,MIMIC-II因年代久远已不再公开;MIMIC-III则历时长久,涵盖了2001年至2012年间ICU收治的53,423例成人患者数据和2001年至2008年间7,808例新生儿患者数据;而最新的MIMIC-IV,在MIMIC-III的基础上进行了诸多改进与更新,收录了2008年至2022年间超过19万名患者的45万次住院记录的临床数据,数据规模更加全面。
MIMIC数据库以其丰富性与深度让人直观感受到医院数据体系的庞大规模。它涵盖了人口信息、疾病诊断、检验科数据、药物信息以及生命体征记录等基础且关键的结构化数据,同时也包括来自监护设备的复杂数据,如动脉波形、心电图波形等波形数据;MIMIC数据库还与社保库相连,不仅记录了死亡信息,还能追踪到患者出院后多年的数据,这为研究ICU中的紧急操作对病人长期预后的影响提供了宝贵资源;MIMIC数据库还包含了以患者胸片为主的影像数据;另外,还有出入院信息、护理记录、文本记录等,为文本数据挖掘提供了丰富的素材和可能。
早在2018年,我就有幸参与了与MIMIC数据库相关的Datathon活动,如今,这一领域已成为我们团队研究的主要方向。医学Datathon活动为我们提供了大量关于MIMIC数据库及其应用的学习资源,极大地推动了重症医学临床研究的发展。
02 MIMIC数据库挖掘临床研究设计思路
在临床研究领域,我们团队熟悉多种研究设计,如随机对照研究(RCT)、队列研究和病例对照研究等。针对重症监护领域的数据库,我们团队进行了详尽的调研,并广泛阅读了相关文献。
调研结果显示,这些临床大数据研究文献主要采用了以下几种研究设计:
回顾性队列研究:最为广泛运用的研究设计之一;
横断面研究:涵盖了诸如普通的临床预测模型和机器学习预测模型等,大多采用逻辑回归等方法;
纵向研究:当横断面研究的数据,引入了能体现结局观察时间的变量t,需要通过Cox回归分析或利用机器学习技术构建随机生存森林模型时,其本质便转变为纵向研究。关键在于,这些研究方法纳入了时间变量t,可以引入时间t对结果的影响,实现对个体随时间发展变化的持续追踪观察。
我们团队在重症临床大数据研究上取得了一定的成果,已发表90余篇SCI论文。总体而言,回顾性队列研究、横断面研究和纵向研究是我们最常用的三种设计方式,能够满足我们大部分的研究需求。
03 重症数据挖掘“秘籍”
接下来,我为大家总结一下数据挖掘的思路。在数据库中,我们可以获取患者的干预信息、临床结局、疾病信息以及临床表征。这些信息之间两两关联,为设计多样化的研究课题提供了丰富的素材。这便是数据挖掘的核心理念,一旦掌握,便能自如地构思并设计自己的研究项目。对于初学者来说,可以从简单的设计开始入手。随着时间的推移和经验的积累,再逐渐深入。我们团队也总结了一套重症数据挖掘的“秘籍”,由浅入深,适合不同阶段的学生学习和应用。
3.1 纯描述性研究
纯描述性研究指的是无需统计分析,仅通过直观描述来展示信息。以我们团队在2019年于《药理学前沿》(Frontiers In Pharmacology)上发表的一篇文章为例,探讨呼吸机相关性肺炎(VAP)患者的感染源及抗生素使用的特点。我们仅从横断面数据中筛选出VAP患者,也没有采用复杂的统计方法,仅通过简单的图表来展示结果。统计对社会的影响往往体现在这种基础性的描述和分析上,可为其他医院在面对类似诊断不清的情况时提供一定的参考。
3.2 危险因素分析研究
这是一篇关于危险因素分析的研究,旨在探讨脓毒症患者的特征指标与临床结局之间是否存在关联,并特别关注了性别这一因素。该研究采用了回顾性队列研究的方法,主要统计方法是生存分析和Cox回归分析。Cox回归分析是识别危险因素和保护性因素的有效工具,它能够帮助研究者确定哪些因素对临床结局具有显著影响。研究结果主要通过一个森林图来展示。通过观察森林图,研究者可以清晰地看到哪些因素对临床结局具有正面或负面的影响,为临床诊断和治疗提供有益的参考。
3.3 回顾性队列研究
以我们团队在2022年发表的一篇回顾性队列研究文章为例,该研究探讨了支气管镜检查对ICU呼吸机相关性肺炎患者预后的关系。回顾性队列研究作为一种常见的研究类型,在我们的研究中被广泛应用。在深入研究之前,我们广泛阅读了学术界的类似研究,并发现了一个普遍适用的规律。我们将其形象地称为“三板斧”策略:
两组比较表。在回顾性队列研究中,通常涉及两个队列(也可以是多个队列),要么依据干预分组(有无某种干预措施),要么依据暴露分组(有无某种暴露因素)。我们通过制作两组比较表,来展示基线资料及其他临床特征指标群的差异。这是构建文章框架的第一步,至少需要一个基线资料比较表,根据临床知识可进一步增加其他特征指标群的表格。
绘制两组生存曲线或累积风险曲线。生存曲线展示随时间变化的生存概率,而累积风险曲线则展示随时间增加的风险。这两种曲线都能直观地反映两组之间的差异。在我们的研究中,无论是原始数据还是经过倾向性评分匹配的数据,都清晰地显示出支气管镜检查组患者的生存曲线相对更优。
回归结果分析。这是文章的核心部分,通过回归分析来验证之前的假设。值得注意的是,在大数据研究中,我们通常会采用多种方式进行回归分析,并筛选出关键自变量进行重点展示。在我们的研究中,构建了多达12个回归模型,但因篇幅所限,只展示了关注自变量(是否进行支气管镜检查)的结果。
综上所述,通过这三板斧策略,我们成功构建了文章的主框架,并验证了支气管镜检查对ICU呼吸机相关性肺炎患者预后的积极影响。当然,在构建文章框架的基础上,我们还可以根据研究需要添加更多内容。对于初学者而言,建议先从这个简单而有效的策略入手,逐步深入学习和掌握更多复杂的研究方法。
3.4 诊断预测模型研究
以我们团队在2021年发表在《医学前沿》(Frontiers of Medicine)上的一项研究成果为例,主要构建了一个针对尿路感染患者发生脓毒症风险的诊断预测模型。该研究属于横断面研究范畴,我们采用了逻辑回归这一统计方法进行分析。通过该模型,我们得出了一个列线图,用于直观展示预测结果。该模型的AUC(Area Under Curve,曲线下面积)值大于0.7,表明其预测性能基本达标,同时Hosmer-Lemeshow检验(HL检验)的结果显示模型的校准度也是合格的。
3.5 预后预测模型研究
这一模型源自我们团队2021年《心肺》(Heart & Lung)上的一篇文章,它关注的是冠脉粥样硬化患者在接受冠脉旁路移植术后的生存预测。这是一个典型的纵向研究,因为它涉及到了患者的随访数据。该研究采用了Cox回归来构建临床预测模型,这是当前学习临床预测模型时不可或缺的基本技能。该模型的结果在这里我们通过列线图和C指数来简要呈现,测试集的C指数为0.767,表明其预测性能是达标的。模型能够预测患者一年、两年、三年的生存概率,并得益于MIMIC数据库与社保库的紧密关联,我们得以跨越住院期间的限制,追踪并分析患者出院后的中长期生存状况。
篇幅有限,相关方法有所删减,想要了解更多可至和鲸微信公众号咨询,点击这里留言领取。
我们团队近年来一直采用上述的这些方法组合,从不同角度研究问题,产出硕、博士论文的质量比较高,且发表的SCI论文数量质量也较高,通常都能顺利毕业。理论上,学会一种方法可以硕士毕业,学会三种方法可以博士毕业;实际上,由于内卷和某些人对公共数据库的抵触情绪,这是明显不够的,我们就要升级配置:硕士按博士安排,学会3种方法,博士按两个博士的工作量安排,掌握5-6种方法,并产出相应的研究成果,这样才会比较稳妥。
这些“招式”是由浅入深的,那么,高级招式就一定会赢吗?答案并非绝对。因为除了招式本身,“内力”也至关重要。
在科研领域,内力指的是我们的综合科研能力,包括课题设计能力、问题分析能力、数据处理能力、结果分析能力以及临床应用能力等。要提升内力,就需要多发表论文,尤其是高级别的论文。因此,我们在学习招式的同时,也要注重内力的修炼。只要内力足够强大,即使使用最简单的招式也能取得胜利。
对于经验丰富的研究者来说,使用MIMIC提取数据仅需几分钟到一两小时。完成数据提取后,立即进行清洗。接下来是数据处理,这主要是编写代码的工作,就像我之前提到的那些“招式”,本质上都是通过代码实现。你需要哪个“招式”,就直接用相应的代码来处理。当然,也存在一些例外情况,比如集成学习可能需要中型服务器72小时的独立运行时间,但大多数情况下,数据处理都能在几分钟内完成,最长也不过两三个小时。因此,我们必须抓紧时间撰写文章,因为这项工作最好不要拖延,否则就会错失良机。
本文内容已做精简,如需获取专家完整版视频实录,请点击这里留言领取。
和鲸科技,旗下拥有数据科学协同平台 ModelWhale,辐射超过百万数据科学家的人工智能实践社区及数据科学竞赛平台和鲸科赛。以“Connect People with Data”为使命,帮助数据人才融入业务创新,帮助企业打通数据的价值闭环。
和鲸 ModelWhale 数据科学协同平台为本次Datathon 活动提供强力支持。其内嵌的广泛R、Python语言工具包库,以及专为医学领域设计的镜像系统,不仅集成了医学研究分析的必备工作流、代码片段库,还覆盖了从基础医学、流行病学、预防医学、生物统计、临床研究到生物信息工程等多个专业领域的数百个医学分析项目案例,为各层级教学实训与科研探索提供了强大支撑,助力研究人员与学者在数据驱动的医学研究中取得更加卓越的成果。
您可点击这里免费探索和鲸 ModelWhale 更多功能~