南京医科大学公共卫生学院沈思鹏副教授实录分享:面向医科专业的《生物医学数据挖掘》课程教学实践初探

行业洞见
报道时间:2025-06-27

导读


6月19日,南京医科大学公共卫生学院副教授沈思鹏受和鲸邀请,在“医科+AI 人才培养” 系列讲座上以“面向医科专业的《生物医学数据挖掘》课程教学实践初探” 为题作专题报告,分享了医科院校的生物统计学人才培养体系构建与课程落地实践。


沈老师系统阐述了《生物医学数据挖掘》课程建设的完整路线图,从课程建设的背景出发,通过理论教学与实习实践相结合,培养学生对生物医学数据的挖掘思维和编程能力,并拓展学生对生物医学前沿领域研究的认知,提高处理大型复合多组学人群队列数据的分析技能。


本篇实录整理自分享会内容,旨在为医学院校在医学专业背景学生中推进 “医学+AI” 融合课程教学,提供可参考的思路与实践经验。


分享嘉宾


沈思鹏

南京医科大学生物统计学副教授、硕士生导师


哈佛大学-南京医科大学联合培养博士,南京医科大学生物统计学副教授、硕士生导师,省整合医学会胃癌专委会副主任委员,中国标准化协会卫生健康专委会委员,省卫生统计专委会青年委员。研究方向为超大人群组学数据整合分析的策略与方法研究,临床研究中的深度数据挖掘。主持国家自然科学基金面上项目、青年项目、江苏省科协青托工程、中国博士后基金面上项目等科研项目。担任Scientific Reports (Editorial Board),Military Medical Research (青年编委),The Innovation Medicine (青年编委)。代表性成果发表于 Nat Comm、Cell Rep、AJRCCM、Genom Proteom Bioinf、Mol Cancer、npj Precis Oncol、EBioMedicine 等杂志。


《生物医学数据挖掘》课程背景


《生物医学数据挖掘》是专门为增强医科专业学生数据挖掘能力而开设的,我先简单介绍一下开课背景。


南京医科大学公共卫生学院下设有生物统计学、预防医学、卫生检验和检疫三个专业。目前,《生物医学数据挖掘》课程主要面向生物统计学专业开设。该专业授予四年理学学士学位,与五年制医学专业不同,它更加偏向统计学,但学生不仅要学习统计知识,还需掌握医学和计算机方面的知识,是一门典型的交叉学科。

专业的主干课程包括许多统计学相关内容,如线性代数、概率论与数理统计、非参数统计、统计计算等;此外,学生还需了解医学知识,例如流行病学、人体疾病概要等医学相关课程,虽非主干课程,但也在学习范围之内。在计算机方面,学生主要从基础编程入手,学习C语言程序设计以及数据挖掘常用的R或 Python 等编程语言。同时还需掌握多种统计学软件,如 Stata、SAS 等。


南京医科大学的公共卫生与预防医学在全国排名较为靠前,是第四轮和第五轮教育部学科评估的A+学科,也是学校入选“双一流”建设的一流学科。我们的生物统计学专业去年在软科排名中位列第一,但在2025年最新公布的软科专业排名中,我们掉到了第二名,第一名是新成立相关专业的北京大学。


生物统计学专业秉持“四位一体”的培养理念,即应当培养学生的统计思维、沟通能力、批判精神和工匠情怀。我们也常用“明计数,识天下”这六个字作为口号,意思是只要学生掌握好数据处理技能,就能在未来发展中拥有广阔空间。这也是我们一直向学生们传达的理念,强调掌握数据处理技巧的重要性。

同时,我们学系开设了一个公众号,名称正是“明计数 识天下”,与专业理念相呼应。目前公众号的关注度还不错,我们会不定期在上面推送统计学相关的最新研究前沿、会议信息以及活动通知等内容,欢迎大家关注我们学系的公众号。


生物统计学这个专业在国外其实比较热门,大家可能已经了解到,很多人无论本科专业是医学、生物、统计还是数学,都会选择去国外攻读“Biostatistics”这一硕博专业,这其实就是生物统计学。不过在前些年,不管是国外还是国内,都没有开设本科生物统计学专业。即便到目前,美国依然没有生物统计学本科专业,而国内近几年才逐渐发展起应用统计学专业,后来我们成立新专业,才将其正式命名为生物统计学。


关于该专业的主要研究方向,当下较热门的 DeepSeek 给出的回答如下:研究内容大多偏向于服务医学领域。例如在精准医疗方面,通过分析个体的基因组学、转录组学、蛋白组学等信息,探究其更适用的临床药物,以进行药物筛选;在药物上市前,需开展临床试验,对药物疗效进行评估,这其中就涉及流行病学分析、组学分析等多项工作。


这些研究内容很多都属于前沿领域,对本科生而言是不小的挑战。他们可能能够掌握概率论、贝叶斯公式、全概率公式等基本理论,但要真正开展数据分析并得出有意义的结论,中间还存在很大的门槛——很多人仅仅停留在理论层面,缺乏将理论转化为实际分析数据的能力。


近年来,医学领域正经历着翻天覆地的变革。如今,各个医学领域(不仅限于公共卫生,还包括临床医学、基础医学等)都在开展大型人群队列研究或数据库相关工作,不少人通过对大型数据库的分析与挖掘来开展研究、发表论文。例如近几年备受关注的英国生物样本库(UK Biobank)、美国国家健康与营养调查(NHANES)等,都是常用的数据库。



随着计算机技术的持续进步,人工智能领域热度极高。以往大家常用简单的机器学习方法,如随机森林、支持向量机等,而如今研究趋势已逐渐向深度学习演进,如卷积神经网络、循环神经网络、Transformer 等方法在各领域的应用愈发广泛。与此同时,医学和生物领域的研究也在不断深入,研究者不再局限于被广泛研究的吸烟、饮酒等偏宏观的传统变量,而是聚焦于组学数据。组学数据包含丰富的变量标志物,例如基因组中的基因序列、转录组的基因表达情况、蛋白组的蛋白质水平等等。这些组学数据可能与疾病产生多种关联,因此当前数据挖掘呈现出两大趋势:一是处理大人群的大型数据,二是运用先进的人工智能方法。同时,数据种类也在更新,不再局限于传统的宏观的数据,而是深入到微观层面,利用各种组学数据开展前沿的数据挖掘工作。


《生物医学数据挖掘》课程目标


在这样不断更新迭代的背景下,对学生技能培养的要求也愈发严苛。因此,我们专门开设了《生物医学数据挖掘》这门课程,旨在培养学生真正具备数据分析与挖掘的能力。从课程定位来看,这门课程开设于大三下学期,属于专业课范畴。


我们开设这门课程主要有两个目的:


第一,培养学生的数据挖掘思维。让学生面对数据时不再无从下手,而是具备清晰的分析思路。


第二,提升学生的编程能力。这其中涵盖多个方面:


  • Linux系统操作:学生过往多使用Windows系统和exe格式软件,但许多医学和组学数据的分析软件仅支持Linux系统,因此需要学生掌握Linux系统操作和Shell语言。


  • 主流编程语言:熟练运用主流编程语言R或Python进行编程。


  • 组学分析工具:掌握Linux平台上的组学分析软件,如Plink等(此处不逐一列举)。


此外,课程还有一些拓展目标,例如让学生了解组学研究的前沿进展,培养分析大型复合多组学人群队列数据的分析技能等,但核心目标仍是聚焦于数据挖掘思维与编程能力的培养。这门课程于2024-2025学年下半学期首次开设,目前已完整结课一轮。虽然经验尚在积累中,但已形成了一套课程框架:课程共18次课,整体前半部分偏向理论教学但穿插实操训练,后半部分侧重动手实践同时结合理论讲解,不同于传统课程严格区分理论与实践,这门课程采用“理论与实操融合”的模式,仅在内容权重上有所倾斜。



在核心知识点方面,我们主要聚焦三大技能培养。首先是基本编程能力,课程前期会开设基础编程内容,考虑到R语言在医学及生物统计领域应用更为广泛,我们将其作为主要教学语言,但也鼓励学生自学Python等其他语言,并且在最后的考试中不限制语言使用,只要能正确解决问题即可。其次是组学研究相关内容,主要服务于当前前沿的生物医学相关领域。最后是人工智能模块,聚焦于当下热门的人工智能方法在生物医学数据挖掘中的应用。实习课程则是对前述课程内容的补充,会涉及高级编程知识以及从实际案例角度开展的组学相关教学。


我们的课程每次安排三个学时(约两小时)。理论课的内容安排如下:首先会用一个学时介绍生物医学数据挖掘的背景;第二学时讲解数据挖掘过程中涉及的统计学方法;最后一学时则用于练习,每次课都会设置当堂作业,要求学生完成后立即提交,作业评审结果将计入平时成绩。此外,课程还设有一次期中测试和期末考试,所有测试均在和鲸平台上进行。该平台集成了课程的全部内容,包括查看课件、上传共享数据、计算以及提交作业等功能,这里展示的是课程主页及相关界面的截图。



每次课我们都会将对应的课件、项目上传至课程平台,若有附件、文献等资料也会一并上传。学生只需点击PPT文件,即可在网页上逐页查看课件内容。而项目则是学生进行数据分析与编程的入口,相当于一个Notebook,我们会在其中布置具体任务。例如,第一次课的任务就是让学生熟悉Linux终端及R语言的基本操作。学生了解任务后,点击“运行”即可进入云计算环境进行操作,完成后导出结果并提交作业,老师便可查看作业完成情况。


《生物医学数据挖掘》课程设置

——以肺癌病因研究为例


对于课程的具体设置,这里以“肺癌病因研究”为例展开介绍。肺癌是一种恶性肿瘤,吸烟与肺癌的关联已广为人知。为此,我们在课堂上首先展示了Doll和Hill关于吸烟与肺癌关系的经典研究。这项基于流行病学回顾性病例对照研究的结果显示,吸烟人士相比不吸烟人群,男性患肺癌风险增加14倍,女性增加2.47倍。

除吸烟外,肺癌还与多种宏观流行病学因素相关,如家族病史、呼吸系统疾病史、体重指数异常、性别差异(男性患病率更高)以及肺功能异常等。为体现课程的前沿性,我们会将近十年肺癌研究领域的前沿文献资料上传至云平台,供学生自主学习,以使其了解当前研究进展,培养本科生的科研兴趣。



在肺癌宏观风险因素的关联分析部分,我们设置了“大型人群队列挖掘”这一模块,并且选取了当前较为热门的公共数据库——英国生物样本库(UK Biobank)。在课程设置上,我们首先讲授生物医学的基础知识和背景,向学生普及相关概念,例如:什么是大型人群?什么是队列?帮助学生建立基本的理论框架。随后,我们会探讨UK Biobank的成功经验,介绍其背景、特点以及数据结构,让学生对该数据库有一个初步的认识,并理解如何基于其数据结构开展分析和挖掘。最后,我们会利用部分实际数据,让学生进行实战演练。通过这一课程模块,我们希望学生能够掌握以下几项核心技能:


1.数据质控与清洗:医学数据往往需要预处理才能用于分析,因此学生需掌握数据清洗的基本技能。


2.医学时序判定与模型构建:能够判定暴露-发病的时序规则额,掌握队列研究的分析技巧,构建前瞻性发病数据的统计模型。


在课程的实践环节,我们会提供示例数据并上传至和鲸云计算平台,学生需自行清洗数据,而后选择合适的统计模型评估肺癌发病与相关流行病暴露关联。

肺癌的病因不仅涉及宏观因素,还与遗传密切相关。例如家族中长辈患癌会增加个体发病风险,这是常识性认知。但更深层次的问题在于:人类DNA上的哪些位点与肺癌风险直接相关?


为此,我们设置了介绍肺癌与遗传学的关联研究的课程。每次课程开篇,我们都会引用领域内顶尖文献,以建立学生对前沿研究的基本认知。例如在这一部分,我们就选取了发表于《自然·遗传学》的肺癌病例对照研究。


640 (4).jpg


在具体课程设置上,我们进入了“基因组学挖掘”模块,因为内容较为复杂,我们将其分为两次课程。第一次课讲解基因组学基本概念、数据质控及人群分层问题;第二次课教授关联性分析方法、结果展示与评估技巧,以及遗传风险评分模型的构建。


通过基因组学挖掘的学习,我们希望学生掌握以下核心技能:


  • Linux系统操作:能在Linux系统中调用Plink等基因组学分析专用软件(这类工具多仅支持Linux环境),通过基本命令实现软件运行,掌握系统操作技巧;


  • 基因组学数据分析与建模:掌握基础的基因组学数据分析和结果呈现技巧,并能够构建遗传风险评分建模;


在作业中,我们同样会提供肺癌遗传学数据,学生需结合所学完成数据分析与模型构建,在实践中夯实理论基础。


肺癌的发生除了与基因相关,还和蛋白质密切相关——作为生物学功能的直接执行者,蛋白质组学研究同样关键。我们同样选取了相关领域前沿文献,以此让学生直观认识到蛋白质与肺癌的关联性。



基于此,我们接下来设置了“定量组学挖掘”模块,以蛋白质组学为例,培养学生核心数据挖掘技能:


1.高维数据关联分析:针对定量数据特性,学习如何构建关联模型;


2.高维数据并行计算技巧:解决变量数庞大带来的计算效率问题。以R/Python单线程计算为例,若计算2900种蛋白的两两交互效应,需完成约420万次运算,单线程耗时超70小时。而通过Linux平台进行并行计算(如调用50个核心),可将耗时压缩至2小时内,大幅提升效率;


在作业环节,我们也会围绕以上两大核心知识点设计实操任务。


在讲授肺癌相关内容时,我们提到了多种病因,包括宏观因素、遗传因素以及蛋白组等。如何利用这些“多模态数据”实现综合建模,是教学中的一个关键问题。于是,我们设置了建模与人工智能相关的教学内容。以机器学习为例,我们同样会向同学们展示国际前沿进展,例如讲解基于多个大型人群数据,采用机器学习方法进行肺癌预测的最新论文。



在课程内容上,我们设置了机器学习数据挖掘模块,教学内容由浅入深,先介绍基础模型,如决策树及其扩展的随机森林,帮助学生循序渐进地理解机器学习的原理及实现方式


这里以随机森林方法为例,该方法通过不断的重抽样过程,可以生成各变量的重要性评分。因此,我们可以利用不同细胞的形状、大小等特征,计算它们在肺癌诊断中的重要性,并形成由高到低的排序结果。在整合多种数据开展预测或鉴别诊断任务时,同样可以采用随机森林模型进行建模,并通过受试者工作特征曲线(ROC 曲线)展示其在良恶性鉴别诊断中的表现。上述过程也在课堂中进行了展示。



以上内容是以肺癌病因案例为主线展开教学——从宏观因素到基因组、蛋白组,再到机器学习建模教学的全过程。采用这种案例贯穿的方式,有助于学生建立系统化的认知框架,培养学生的数据挖掘思维,鼓励他们在面对问题时,从不同维度逐一切入,最终实现整合分析,从而获得更为全面和有效的研究结果


关于课程的考核方式,我们非常注重学生在课堂中的实际参与情况,每节课都会专门留出时间用于完成实时作业,因此我们特别提高了平时成绩的权重。此外,课程还设有一次期中测试。这项安排一方面是因为这是课程首次开设,我们希望掌握学生的实时学习进度,避免期末考试难度过高或过低;另一方面也是为了测试是否可以在和鲸平台上顺利开展期末考试。考虑到一个班大约有四十余人,我们想验证多人同时进行云计算操作时平台的负载情况。最终结果显示,整体运行较为顺利,绝大多数同学都能顺利完成云计算任务,未出现明显的系统故障。


因此,最终我们决定将期末考试也安排在和鲸平台上进行。这样,课程从头到尾,包括教学材料、作业提交、考试环节,全部统一在和鲸平台上完成,实现了“一条龙”的运行模式。


课程优势与未来发展方向


最后对课程进行一个简要总结。目前来看,这门课程的优势主要体现在几个方面。


首先,所使用的平台具有较高的便捷性。无论是课件呈现、作业完成、数据计算,还是考试实施,所有环节都可以在同一平台上完成,无需额外借助其他平台,操作上相对集中、简化。


其次,平台的云计算功能也相对便利。由于组学背景的特殊性,涉及的软件多数只能在 Linux 的云计算环境下运行。如果让学生在自己的电脑上操作,往往难以实现。因此,统一的平台不仅提高了教学效率,也解决了实际操作中的技术问题。另外,从未来就业、工作或读研的角度来看,很多与生物统计相关的计算分析实际上都是在该环境中完成的。因此,学生如果能够提前掌握并熟悉这一计算环境,将具有明显优势。


最后,课程实现了产-学-研的融合


  • “学”,主要是指对基本理论和数据挖掘技能的学习


  • “研”,指的是在教学过程中,我们每节课都会结合部分前沿研究内容进行讲解,例如介绍最新文献,使用前沿数据等等,这很多原本是在博士或硕士阶段才会接触的内容,我们选择将其引入本科课堂,目的是希望学生能够提前建立起前沿的数据挖掘视野


  • “产”则是指重视课程与产业界的合作。比如,我们鼓励学生参加各类竞赛。今年我们组织学生参与了 SAS 大赛并最终获得冠军。SAS 是目前药企广泛认可的统计分析软件,因此这类竞赛与实际产业需求高度契合。此外,我们还与多家药企建立合作关系,包括设立奖学金和开展合作课题。其核心目标是培养学生在数据挖掘和课题研究方面的能力,促进他们产业界的深入接触,了解更贴近实际应用的数据挖掘需求,实现学生与企业的双向受益。



这门课程无论是在“学”、“研”还是产”方面,都有明确的设计,能够切实培养学生的数据挖掘能力,具有积极意义。当然,由于这是课程的首次开设,其中存在许多待提升之处,未来我们计划从若干方面着手改进。


  • 首先,目前课程仅涉及了生物医学领域的机器学习内容,但目前来看,深度学习在某种程度上已经有了对传统机器学习“碾压”的趋势。因此我们也在考虑在后续课程中引入一些基础的深度学习数据挖掘案例


  • 另外,大语言模型也是当前的热门技术。在教学过程中我也发现,很多同学在遇到问题时,会主动去借助 DeepSeek、Kimi、腾讯元宝等模型来解决问题。既然同学们已经在使用这些工具,我们也可以考虑将大语言模型直接嵌入到课程的云计算环境中。这样,学生在操作过程中遇到问题时,就可以在平台上更加方便、高效地获得帮助。


  • 此外,我们也在考虑引入虚拟仿真式教学。目前课程所使用的数据均为真实数据,未来可以探索通过虚拟数据生成的方式,使每位学生获得不同的数据集,让课程更加具有趣味性和个性化。


  • 最后,我们希望开展交互式教学,进一步加强与学生的实时互动。例如,学生提交作业后,系统可以自动判定其编程过程中的问题,教师可以据此及时与学生沟通,帮助他们纠正错误、弥补不足。



以上为实录分享内容,更多材料可联系工作人员了解(添加时烦请备注“医学+AI”)。


欢迎前往和鲸官网获取《AI 融合高等教育:从通识到专业——学科+AI 人才培养白皮书》,了解更多“学科+AI”相关案例与资讯。


7月1日19点,和鲸 ModelWhale 大模型应用平台全新升级,您可点击这里了解产品更多详情,也欢迎您前往和鲸视频号预约观看直播,更可联系工作人员加入社群,优先体验平台核心功能~
开启 AI 之旅新篇章,立即体验和鲸 ModelWhale 的云端协作魅力
数以万计的用户正在使用中
电话咨询
商务咨询请致电:
021-8037 0235(转6)
微信咨询
工具使用、办赛需求 欢迎联系我们