4C大赛健康数据洞察赛道官方智能体DeepAnalyze怎么用?人机协同开启数据分析新范式
作为本届4C大赛“健康数据洞察”赛道的官方智能体工具,DeepAnalyze由中国人民大学团队自主研发,旨在用大模型和智能体来模拟数据科学家的行为,自主地从数据源中提取最后的洞察。在今年的比赛中引入智能体支撑,旨在鼓励参赛者使用AI工具解决复杂任务,培养对智能体的理解与使用技能,并探索高效的“人机协同”路径,从海量健康数据中挖掘深层价值。

什么是DeepAnalyze?
DeepAnalyze是中国人民大学信息学院自主研发的自主数据科学大模型,于2025年10月开源,目前在GitHub上已获得3,800多个星标,是开源社区自主数据分析领域的标杆项目。
与传统问答式大模型不同,DeepAnalyze能够模拟数据科学家的完整工作流程:用户只需提供数据源和一条自然语言指令,它就能自主完成数据读取、清洗、分析、建模、可视化,最终生成一份完整的数据分析报告。
为什么引入智能体?
本届4C大赛引入DeepAnalyze作为官方智能体,核心在于两大考量:
1.亲身实践“人机协同”的未来工作模式
智能体已成为数据密集型科学研究与决策中的重要工具。与DeepAnalyze协作的过程,本身就是一堂关于未来数据科学工作方式的实训课。参赛者将学习如何向AI清晰定义问题、如何批判性评估AI生成的分析结果与代码、如何基于AI的发现提出更深层的问题以引导下一轮分析。
这种“人类把控方向与深度,AI负责执行与广度”的协作模式,正是数据科学领域效率革命的关键,能够让同学们在实战中培养对智能体的理解和应用能力。
2.降低复杂任务门槛,聚焦核心创新
本次赛题提供的数据集涵盖全球各国疾病死亡、健康风险、营养人口、社会经济等多维度数据,覆盖面广、关联性强、数据量大。
传统方式要求参赛者需深入理解所有数据并编写大量代码,而DeepAnalyze能够接管数据清洗、探索、基础建模与可视化等繁重且标准化的环节,让参赛者从重复性劳动中解放出来,将更多精力投入到提出关键问题、设计分析框架、验证与升华AI产出的洞察等更具创造性的工作中,实现效率与深度的双重提升。

如何在比赛中使用DeepAnalyze?
考虑到许多学生缺乏本地GPU算力资源,赛道组委会与和鲸社区合作,将DeepAnalyze完整部署于云端。参赛者无需关心复杂的模型部署与配置,只需申请API Key,即可像调用任何云服务一样,通过简便的接口与DeepAnalyze进行交互。无论是通过命令行、Python脚本,还是图形化前端界面,都可以快速上手使用。
对于希望深入使用的同学,DeepAnalyze也支持本地部署。最终提交时,只需按要求保存与智能体的交互记录作为附加材料即可。
DeepAnalyze和API的具体使用请参考:
技术报告:https://arxiv.org/abs/2510.16872
GitHub仓库:https://github.com/ruc-datalab/DeepAnalyze
评委评分看重什么?
张绍磊老师特别说明:引入智能体后,评分时将重点关注人机协同的过程与质量——是否根据智能体返回结果进一步优化问题?人与智能体的分工是否合理?能否体现各自优势?最终的分析深度和创新视角仍是核心。
张老师强调,智能体是提效工具,而非替代方案。作品的深度、广度和创新性,依然取决于选手自身的思考与投入。
本届4C大赛大数据主题赛“健康数据洞察”赛道三场系列培训已全部完成。回放视频已上传至赛事主页,前往赛事主页或前往链接【https://live-wa6doe.vhall.cn/v3/special/detail?id=259705714】即可观看完整回放,获取详细操作教程。
往期培训:
参赛必看!4C大数据主题赛“健康数据洞察”赛题Q&A+培训安排发布
欢迎各位选手登录赛事主页完成报名,并在和鲸平台提交作品。期待大家善用智能体工具,在人机协同中交出精彩的作品!
赛事相关咨询、答疑需求欢迎扫码加入赛事社群。

渠道合作
