和鲸&中国人民大学 DeepSeek AI4RUC 系列课第 6 讲成功举办
3月28日下午,由中国人民大学国家治理大数据和人工智能创新平台(简称“创新平台”)、新时代智慧治理学科交叉中心、交叉科学研究院和教务处主办的 DeepSeek AI4RUC系列课程举办第六讲成功举办。本讲主题为《从教学实训到科研探索的全场景数据赋能》,由上海和今信息科技有限公司客户成功总监郑凯少主讲。作为中国人民大学与和鲸科技共建的数据生态智能平台,校级平台Datahub 深度融合了教学实训与科研创新场景。本讲主要介绍 Datahub如何在教学实训及科研探索场景中,提供一站式的全流程支持能力,从而实现全方位的数据赋能。
主讲人简介
郑凯少
上海和今信息科技有限公司客户功总监
负责客户成功团队的管理、客户服务策略的孵化。在多个行业、多个项目的交付和运营,实现应用场景的落地与业务驱动的探索。深入理解科学数据在科研探索中的应用,成功推动多个项目案例实现数据驱动的成果转化,协助用户在数据科学领域实现显著的创新应用与业务增长。
内容回顾
课程聚焦普及与应用双路径
郑凯少对中国人民大学 Datahub 平台进行了全面介绍。Datahub 作为校内私有化部署的数据生态智能平台,在教学实训与科研创新场景中有着广泛且深入的应用。他阐述了该平台如何深度融合这两大场景,还在现场进行了演示,展示 Datahub 如何在教学与科研中,为师生提供一站式全流程支撑服务。
Datahub校级AI应用平台介绍
随着人工智能的发展,算力使用门槛高、算力应用支撑缺乏、多架构算力整合难以及算力管理精细化等问题日益突出。针对这些挑战,Datahub 构建了一个面向应用场景的多元异构、低门槛算力及数据调度的AI应用平台。通过精细化的算力与数据调度管理,Datahub 有效支撑了校内的数据科研协同与教学实训工作。经过两年多的稳定运行,Datahub 已初具规模,成功支撑了 3 个学院、5 位授课老师的 12 门课程,设置了 45 项实训内容,形成了涵盖 50 多项数据分类、覆盖各大学科领域的丰富数据生态,并沉淀了超过 1TB 的经典数据供全校师生使用。
郑凯少从科学分析和 AI 模型两大方面详细展示了 Datahub 在数据科研协同研究的支撑能力。他表示,随着时代发展,以模型生命周期为驱动的 ModelOps 工作模式兴起,模型受数据和算力高度影响,在科研工作中,从数据接入、工具使用、算力获取到团队协作也都面临诸多挑战。在 AI 大模型时代,算力需求呈指数级增长,训练模型需合适数据赋予其专业领域知识。Datahub 遵循 FAIR 原则构建数据生态,涵盖可查找、可访问、可互操作、可重用四个方面,解决科研孤岛问题,助力不同角色在编码、数据收集、课题引导等完成科研流程。在数据管理上,Datahub 支持本地数据集、文件,可连接数据库及文件存储空间,实现一站式数据管理;在工具方面,提供工程化思维和能力,内置常用数据库、工具及依赖环境,解决了环境冲突问题;算力上,开放 180 TFlops 供师生使用;协作时,可一键分享工作成果,协同者能获取数据接入、工具、算力等核心元素继续工作。此外,Datahub 还可部署开源大模型框架,结合校企知识数据实现私有化部署,以回答特定领域问题。
Datahub规模初见
“我们的数据生态,在这个平台上其实已经沉淀了十多项,涵盖各个学科领域,1.6TB的经典数据已经开放,只要用户上平台都可以申请使用这些数据。”
数据科研协同研究
1、新时代的科学分析面临的四大挑战 数据资源获取与整合难题:科研人员常需面对分散的数据资源,这导致了高昂的数据获取、整理及清洗成本,甚至需要跨平台整合个人或组织的数据资源。 分析工具不统一,流程效率低:目前科研分析工具分布于不同平台,用户在进行数据分析时需频繁切换环境,并手动搭建流程,无法实现自动化分析。 计算资源瓶颈:科学研究,尤其是涉及数值密集型问题的研究,受限于当前计算能力的不足,缺乏有效的并行和分布式计算支持,难以应对复杂的计算需求。 协作与知识共享障碍:在科研项目中,数据、代码、模型及分析结果往往分散存储,导致团队间的协作效率低下,知识分享困难,限制了科研成果的最大化价值。 2、支持数据驱动研究场景的端到端流程
“你在datahub平台上,只需一个按键就可以把工作成果分享给他人,也可以一键拿到别人的数据并接入分析。”
3、多源数据的科学管理
4、对于科学分析全流程进行强有力支撑
数据接入与管理:统一接入和管理分散在各地的本地数据、数据库、NAS以及对象存储的数据。
数据处理:提供算力支持,以及定时离线计算功能,以应对大规模数据处理需求。
数据分析:支持多种语言的交互式数据分析工具和低代码拖拽式分析工具,提升数据分析效率。
成果生成:分析成果能够高效共享,并且基于平台可以快速复现。
5、一站式科研工具支撑
6、消除科研孤岛,构建合理贡献科研成果渠道
教学实训支撑
郑凯少还介绍了 Datahub 在教学实训方面的应用。他指出,Datahub 聚焦教学场景的实验实训,而非完全替代理论课程。通过规范化、统一化、一站式的实训环境,Datahub 有效解决了学生在实训中遇到的代码运行问题。同时,Datahub 提供了交互式 Notebook、低代码开发工具和纯代码编写工具,满足了不同用户的学习需求。基于 Datahub,还可实现课赛结合,充分激发学生的学习热情。他以 2024 中国人民大学金融人工智能挑战赛为例,该赛事基于课程出发,共吸引了 192 支团队积极报名参赛,不仅考察了学生对金融和 AI 理论知识的掌握程度,还注重他们在实践中的应用能力。
"大家有没有印象,早期学习编程课程时,第一堂课通常是下载“Java”或“C语言”以及安装相关工具,第二堂课才能正式开始学习。但是在datahub平台上,学生无需担心安装任何软件,甚至不需要准备自己的笔记本电脑,只需通过浏览器访问平台上的设备即可。这样一来,学生们就可以专注于上课内容"
0
1
2
5
实践演示环节
郑凯少展示了如何在 Datahub上找到数据、申请数据并使用分析工具进行分析的过程,并演示了低代码开发工具的使用,包括拖拽组件、配置参数、查看结果等,进一步体现了 Datahub 的便捷性和高效性。
3
4
5
此次课程不仅展示了 Datahub 在科研与教学中的强大支撑能力,也为在场师生提供了切实可行的实践路径。未来,Datahub 有望在更广泛的场景中发挥重要作用,持续赋能高校科研与教学创新。和鲸也将持续走入更多高校校园,以人工智能之力激发更多跨学科的研究思路与实践应用,推动科研创新的深度融合。
Datahub 不仅是实现人大“学科+AI”知识融会贯通的平台,更是和鲸人工智能通识教育解决方案的一次重要落地实践。方案打通 AI 通识到学科+AI 的创新人才培养路径,您可点击文末阅读原文了解方案更多详情!