山东大学数字人文实验室: 探索技术前沿,践行学术戍边,推动新文科向垂直领域纵深发展
山东大学数字人文实验室认真学习贯彻习近平总书记关于教育的重要论述,秉承“学术戍边”理念,以边疆研究为抓手,以冷门绝学赓续为指向,通过多学科交叉融合,打破专业壁垒、强化问题凝聚、专注垂直领域,努力构筑冷门绝学资源生态,形成边疆研究数据优势,为加快构建中国特色中国边疆历史话语体系、学术体系、学科体系做出积极贡献,为以中国式现代化全面推进中华民族伟大复兴添砖加瓦。
山东大学数字人文实验室是山东省高校首批文科实验室(A 类),以历史学等传统人文学科为基础,与现代计算机技术等理工学科交叉融合,在承担教学与科研任务的同时,探索 AI 时代数据辅助人文研究的路径,使“准科学”学科科学化,给“冷门”学科以温度,使“绝学”得到延续,实现边疆研究的数字化、科学化。为进一步助力“冷门绝学”传承研究,推进大数据时代的中国特色边疆话语体系建设,实验室在前期数据和技术积累的基础上,开发了文翰古籍大模型,并以文翰大模型为基础创建了数智边疆智能体综合平台。
文翰(WH)边疆古籍大模型专精于古汉语典籍处理,通过文本翻译、实体识别、文本摘要、文本标注、标点和词法分析等边疆古籍文献处理任务,已经达到服务学术研究的水平,可以在古籍专题文献整理、专业文本处理、历史文献智能化考辨、非定向学术探究等方面为科研人员提供强大的支撑,提升科研效率和质量。在此基础上,中国数智边疆实验室将联合中国社会科学院中国边疆研究所等国内核心边疆研究机构,通过边疆文献资源统合,边疆数据融合和机构联合,共同开发基于人工智能助理(AI Agent)理念的数智边疆综合智能平台,平台深度拓展了边疆研究智能化维度,实现业内领先的实验室技术水平,催生全新一代的数智化科研新模式。
在智能平台的助力下,实验室以东亚汉籍为基础,构建边疆资料体系。相比原本需要耗费大量人力物力进行数据标注,在智能平台中,只需将需求用自然语言表述出来,即可在原有的古籍文本数据基础上直接导出结果,例如对古籍进行标点、从古籍中抽取命名实体、建构实体关系、抽取专题文献、建构专题数据等,在此基础上根据东北边疆及东亚研究需求,进行多模态、多维度的数据分析,进而构建边疆资料体系。进行多学科交叉融合,为边疆研究提供新的方法与路径,推动学术研究的创新性和综合性发展,让边疆数据细粒度呈现:很多边疆史的珍贵资料,但由于年代久远导致文献记载模糊化、碎片化,多版本,研究难度较大,传统方法需人工辑录、逐字逐句比对,耗时耗力;而今,借助大模型的强大的文本处理能力,实验室能够实现对专题冷门绝学资料的全面整合与即时对比,实现了“无一字无来历”的精细数据展现。
边疆智能体平台深耕专业的同时,实现人文与技术交互的对齐,通过对文科友好的交互机制,使没有技术背景的文科学者和学生也可以通过自然语言对话完成专用智能体的部署,在实践中掌握前沿技术。以大模型辅助文献整理、自主专业学习问答、学术选题启发和历史书写优化,提升了学术研究与创作的效率与质量。
随着新产业与新业态的蓬勃兴起,社会对具备知识复合性、跨学科融合能力及卓越实践技能的新型人才的需求日益迫切,这不仅推动了一众交叉学科新专业、新课程的诞生,也推动着育人新模式的创新探索。为拓展教学形式,帮助非理工学科出身的学生塑造数据思维,实验室建设了数字人文教研一体平台,面向全校开设了《数字人文通用技术与实践》(稷下创新)课程,通过理论与实践相结合的方式介绍数字人文的概念、多学科交叉研究思路,以及通用技术的应用,充分利用东亚数字人文教学平台的丰富资源,通过项目式学习的方式,让学生在实践中掌握数字人文技术的精髓,并培养其创新实践能力。课程深入浅出地阐述了数据思维的本质及其在人文领域问题解决中的独特价值,以及在当前数智 AI 时代背景下,学生如何有效运用数据思维来强化个人核心竞争力。在教学过程中通过贴近学生生活实际的案例,激发学生动手实操的兴趣。整个实践过程充分利用了平台 Canvas 低代码开发工具,通过直观的“拖拉拽”界面,学生得以跨越复杂的代码编程障碍,直接聚焦于宏观逻辑构建,高效连接预置的算法组件,完成数据分析与模型搭建。
Canvas 可帮助学生优先理解整体逻辑、感性上大幅消除“畏难情绪”,算法组件的连接具象化展示了学生数据分析思路上的层层递进。在课程实践结果展示环节,由学生分组汇报其所完成的数据分析主题报告。从实际教学效果上来看,即便面对相同主题,由于分析路径、工具应用的差异,各组得出的结论、预测及建议均展现出独特的视角与深度,深刻揭示了数据分析作为辅助决策工具的本质,即数据分析是手段但不是目的,数据分析真正的目的在于辅助决策。同时,以《数字人文通用技术与实践》课程为依托,实验室举办第一届数典戍疆数据分析大赛,赛题涵盖古籍文献分析和调研报告分析两大方向,参赛者使用数字人文教研一体平台上的丰富数据、高效算力和专业模型,在实战中深度体验如何数字化研究中国边疆历史。此次以课程创新为驱动的课赛结合模式,经由课赛结合、科创拓展等方式,有效地推动了教学质量的提高以及学生实践能力的增强,真正实现以赛促教、以赛促学、学以致用。
在团队建设方面,以国家冷门绝学团队——东亚数字人文团队为基础,组建了数字边疆团队、数字边疆青年学者团队、数字边疆大学生双创团队三个层级的人才梯队。数字边疆团队联合国内边疆研究核心人才,与计算机科学与技术、地理信息系统等理工学科团队交叉融合,以重大项目协同攻关为基点,着力打造数智边疆顶尖人才团队;通过“数字边疆青年论坛”,集合海内外青年科研力量,打破学科界限,通过文、理、工多学科交叉,着力打造数字边疆青年学者团队;通过“东部边疆历史数据竞赛”吸引全国本硕博学生团队,打造数字边疆领域大学生双创团队。由此,建成梯队合理、交叉融合的数字边疆人才培养体系。
在人才梯队建设过程中,实验室不断优化环境,做到资源引人,平台留人,环境育人。实验室以边疆智能体平台为依托,采用“学者+资源”模式,为学者提供问题意识方向研讨、资料采集、资料整理和情境分析服务,使传统领域研究学者享受实验室资源便利,使理工技术团队的项目开发有的放矢,使大学生双创团队获得实战场地;采用“学者+工具”模式,为学者提供数据清洗、文本分析、网络构建、图表可视和创作草稿生成服务,使学者有可用“工具”,使“工具”有落地锚点,实现人文与技术的双赢;采用“实验+教学+开发”模式,发挥山东大学文科见长和新文科发展顶端优势,采用文、理、工联动创新模式开发《数字人文通用技术与实践》(稷下创新)、《AI的人文应用》(专业选修课)、《数字人文史》(硕士生必修课)等一系列新文科课程,为团队人才体系的可持续发展奠定了坚实基础。
当下,人工智能正以大模型为核心迅猛发展,培养拥有人工智能素养的拔尖创新人才成为高校迫在眉睫的任务。实验室将持续以东北边疆与东亚历史文化、区域国别学数智赋能为切入点,探索“新文科”范式的实现路径,促进高质量教科研成果的产出,为培养适应时代需求的高素质文科人才贡献力量,推动中华文化更好走向世界。