山东大学 AI 驱动的数字人文研究x大模型应用方法论分享:以一域看全局,以边疆望世界

大模型
报道时间:2025-06-06
导读

在人文社科领域使用大模型辅助工作时,因为内容的专业性和复杂性,使用多个大模型往往会给出不准确或不统一的回应。基于此,2025 年 5 月 21 日,和鲸社区特邀山东大学数字人文实验室数典述疆团队的袁庆豪同学,以团队开发的中国首个边疆历史文化专业知识库为例,分享人文社科领域中的大模型应用方法论。会上,袁同学详细阐述了如何通过构建专业领域知识库,提升大模型在人文社科领域的应用效能,实现知识的深度结构化与专业化,还展示了如何基于该知识库,打造数字景观平台和数字人等具有创新性和实用性的衍生应用,旨在让大模型能够更精准、高效地服务于人文社科研究。


output.png


分享嘉宾

袁庆豪
山东大学2023级世界史专业硕博连读生


以下为实录分享内容。



研究背景与核心问题:

大模型时代的边疆历史叙事挑战





我相信在座的各位,很多都和我一样,日常工作中会接触和使用像ChatGPT、文心一言、DeepSeek这样的大语言模型(LLM)工具。它们确实非常强大,能帮助我们快速查找信息、整理资料,效率提高了不少。我自己也在用,感受很深。


但不知道大家有没有在使用过程中遇到这样的困惑:当涉及一些专业性强、历史脉络复杂的领域,尤其像我们国家这样拥有悠久历史、疆域变迁复杂的文明古国,大语言模型有时会给出模棱两可,甚至不够准确、与事实有出入的回答。举个例子,我们尝试用不同的AI工具查询像“中国古代少数民族建立的高句丽政权”这样的问题时,得到的答案竟然各不相同。


对于边疆历史这样事关国家主权和领土完整、民族认同的重大议题,它的历史叙述必须严谨、准确、权威。边疆历史不应被扭曲,我们的边疆故事更需要被精准地讲述和传播



output (1).png



基于上述思考,作为长期深耕人文社科领域的团队,我们深知在浩瀚文献史料中开展严谨研究的挑战。通过专家访谈、公众调查及东部边疆五省十四市的实地调研,我们发现史料分散、多模态信息整合困难、研究周期长等问题,不仅是边疆历史研究的痛点,更是广大文科研究者处理复杂人文资料的共性难题。





核心成果:

构建边疆历史文化数字化体系






我们团队的目标是探索并实践一种有效的数字人文方法论,以前沿数字技术为边疆历史及更广范围的人文研究提供坚实新基建,并在此基础上开发面向研究者与公众的创新应用,确保专业知识的高效、准确传播。核心工作是依托边疆历史文化领域的长期积累,构建国内首个边疆历史文化知识库,并衍生相关应用,本次将重点介绍这些内容,以期为研究与实践提供启发。以下详述团队三项核心数字化成果。


第一项成果是方法论的基石与核心——高度结构化的边疆历史文化专业知识库。该知识库非简单文献或资料堆砌,它更是我们对如何系统性、结构化地管理人文知识,并使其能为AI所用、为人所用的核心思考与实践。这其中蕴含的设计原理,对广大文科研究者处理和呈现自己的资料具有普遍借鉴意义。



山大同学3.png


  • 领域知识的深度结构化与语义关联

我们通过语义关联、知识图谱检索增强生成技术,实现领域知识的深度结构化与语义关联,经严谨学术梳理、内容加工及前沿技术应用构建而成。我们系统性整合了古籍文献、历史档案、考古报告、民族志、历史地理信息、历史地图、口述史等多模态数据,通过数据清洗、标注,揭示人物、事件、地点、文献等实体间的复杂关系,形成逻辑清晰、相互关联的边疆历史文化统一知识体系。


普遍借鉴意义:对于任何文科领域,无论是文学研究中的人物关系网络、历史事件的演变脉络,还是艺术作品的风格传承,这种将零散信息通过语义关联构建成结构化知识网络的方法,都能极大提升资料的有序性和可分析性,为研究发现提供新的可能。



  • 以高质量知识库增强大语言模型的专业性

大家可能会问,有了ChatGPT这样的通用AI,为什么还需要我们这个“专属”数据库呢?原因就在于,通用AI依赖于其训练数据,对特定、深入、专业的领域知识,特别是像边疆历史这样敏感且需要精准溯源的议题,有时会出现不确定性甚至错误。而我们的知识库则是提供权威、精确、深度结构化的知识内容。我们采用检索增强生成(RAG)技术,让大模型在回答问题前,先在我们的知识库中进行检索,找到与问题匹配的知识后再生成答案。这就像给它配备了一部最权威、最全面的专业“百科全书”。这样一来,LLM基于我们知识库给出的回答,准确性、深度和专业性得到极大提升,有效避免叙述偏差。


普遍借鉴意义:文科研究者往往拥有自己领域内独特且珍贵的语料和知识积累。通过构建类似的专业知识库并结合RAG技术,可以将这些专业知识“注入”大模型,使其成为研究者专属的、更懂行的智能助手,辅助文献研读、事实核查、乃至启发新的研究思路。



  • 以领域专长构建专业壁垒

我们选择做知识图谱检索增强生成技术,一个很重要的原因就是我们能够有效地构建专业壁垒作为我们工作的护城河。知识图谱本身的构建需要领域专家的指导来确保内容的严谨准确,而我们团队多年深耕边疆历史研究,这个技术和我们的研究方向契合度很高。一方面我们的学术积淀能确保比一般机构的内容产出更加权威,另一方面我们以首创的探索精神填补了国内边疆历史文化知识库的空白,走在了数字化的前沿。


普遍借鉴意义:在AI日益普及的时代,文科研究者的核心价值在于其深厚的领域专长和分析洞察能力。将这种专长与数字技术结合,构建起难以复制的专业知识资源,是提升研究工作不可替代性的重要途径。



总结一下这部分,我们构建专业数据库的过程,实际上就是一次将特定领域人文知识进行数字化、结构化、智能化的方法论实践。这种方法论对于其他人文社科领域,如历史学其他分支、文学、考古学、人类学等,在处理和激活自身独特的资料方面,都具有重要的参考价值。


第二项成果是边疆历史文化数字景观平台。在知识库基础上,我们思考如何以更生动、直观的方式呈现边疆历史文化知识,让更多人能够感知和理解。于是,边疆历史文化数字景观平台应运而生。平台是基于知识库的延伸应用,通过数字化、可视化手段展示文献资料,作为对外展示资料储备的窗口。


山大同学4.png


目前,我们已经开发并上线了 21个数字展厅,覆盖了东部边疆多个具有代表性的历史文化节点和景点景观。以威海赤山法华院数字展厅为例,内容涵盖历史沿革、建筑概况、建立者张保皋传记及与圆仁僧人相关的历史互动。平台旨在公众提供一个了解边疆历史文化的新颖渠道,也能为研究者提供一个基于地理空间的直观探索工具。


普遍借鉴意义:这种“数字景观”的呈现方式,对于任何需要进行空间叙事、情境再现的人文研究领域(如历史地理、城市研究、战争史、文学作品的地理背景分析等)都极具启发。它可以帮助学者将研究成果转化为更易于公众理解和体验的数字化产品,拓展学术传播的边界。



第三项成果是可交互的边疆历史文化数字人。我们基于知识库与大模型开发的第三项成果,是可交互的边疆历史文化数字人 “卫沧溟”。其底层接入外挂知识库的大语言模型,具备准确回答边疆历史文化问题的能力,能实现表情与肢体动作的自然交互,提升交互体验的生动性与友好性。


普遍借鉴意义:可交互数字人作为一种新兴的知识传播和互动媒介,为文科知识的普及教育开辟了新路径。无论是历史人物的“复活”对话、文学经典的场景导读,还是哲学思想的互动辨析,数字人都能提供一种极具吸引力和沉浸感的体验,这对提升人文社科知识的公众参与度和影响力大有裨益。



山大同学5.png

阶段性成果与未来展望:

构建可持续扩展的数字生态




正如我刚才介绍的,我们团队的三项成果不是孤立的:“多模态边疆历史文化专业数据库”是我们的基础和核心,“边疆历史文化数字景观平台”和“可交互数字人”则是基于这个基础衍生出的创新应用。这体现了一种从“知识基础设施建设”到“多元化应用服务”的数字人文工作路径


我们的长远愿景是,以这个高质量、高准确性的专业知识库为基石,持续地开发和扩展更多样化、面向不同用户和应用场景的数字化产品和服务。我们正在积极构建一个可持续扩展的边疆历史文化数字生态,让我们的成果能够以各种形式,有力服务于学术研究、大众教育、文化传播、文旅产业乃至国家文化安全建设。


到目前为止,我们的工作已经取得了一些阶段性的成果和认可:在学术产出方面,团队已完成阶段性系统总结,一篇论文收录于核心期刊,另有三篇论文正在审稿中,并且我们已获得国家专利3项。此外,平台也开发了多个实用小工具,欢迎大家体验。


山大同学6.png


当然,我们也深知边疆中国的广阔无垠和历史文化的博大精深。受限于目前的精力,我们的知识库在地理覆盖范围上还有所侧重。目前,我们主要聚焦于中国东北三省到浙江省一带的东部边疆区域的历史文化知识建构。未来,我们希望能逐步扩展到更广阔的边疆地域,不断完善和丰富我们的知识体系。


今天向大家展示的,是我们团队在数字化人文研究道路上不懈探索的阶段性成果。我们深信,我们所探索的这套以构建专业知识库为核心,结合前沿AI技术与多元化数字呈现手段的方法论,不仅适用于边疆研究,更对广大文科生和人文社科学者具有普遍的借鉴意义。它展示了在大模型时代,文科研究者如何主动作为,利用新技术深化研究、创新表达、拓展知识服务的可能性。我们尤其期待与不同人文学科背景的老师和同学交流,探讨这些数字方法如何应用到你们的研究领域中。




 Q & A





Q

构建知识库或智能问答需掌握哪些技术?

A

基础应用可通过 Dify 部署大模型 API,导入可检索的电子文档(非扫描件)实现检索增强;若需提升准确性,可利用 Python 将数据清洗为知识图谱格式(如三元组),技术门槛不是很高,适合人文研究者结合领域专长实践。




Q

建立实体关系知识图谱的工具与难点?

A

推荐使用 MinerU 处理 PDF 文本,通过 BERT 或调用大模型 API 构建三元组。核心工作集中于数据清洗环节(如 OCR 识别错误、格式校验),需人工与技术结合完成。




Q

如何收集散落或口述史料?

A

通过访谈记录口述史并转化为文本,打标签后纳入结构化处理流程,现阶段以文本结构化为主,未来计划探索语音检索技术。




如需获取完整版视频回放,可复制下方链接或联系和鲸工作人员观看回放~(备注“人文社科大模型活动”)

https://www.heywhale.com/home/activity/detail/682bf93cd278c24d7ba24424/content/0


momo二维码.png


和鲸深耕人工智能与数据科学多年,面向科研机构、高校及专业领域企业,旨在以旗下 ModelWhale 平台,支持大小模型协同,旨在践行 AI for Science,赋能大模型应用构建、资产管理与生态协作。若您想率先体验 ModelWhale 大模型应用平台,也欢迎您点击这里参与调研~



开启 AI 之旅新篇章,立即体验和鲸 ModelWhale 的云端协作魅力
数以万计的用户正在使用中
电话咨询
商务咨询请致电:
021-8037 0235(转8)
微信咨询
工具使用、办赛需求 欢迎联系我们