保定新闻传媒中心主办
您的位置:首页> 保定新闻>

三年打磨,华北电力大学团队攻克“数据孤岛”

“海研”让全球科研数据为保定“加油”

来源:保定晚报作者:时间:2025-12-16 08:49

鲁斌正带领团队克服研发难题。     刘琦 摄

□新畿辅-保定晚报记者 刘琦

数据被誉为数字经济时代的“新石油”,价值巨大。建设高质量数据集,是让数据价值从“潜在”走向“现实”的关键一步。

今年6月,在雄安未来之城场景汇科创产业园举办的“第二届雄安未来之城场景汇垂直大模型应用大赛”行业高质量数据集赛道决赛中,华北电力大学的“海研”全球科研基金数据集,从249个参赛作品中脱颖而出,斩获二等奖。近日,华北电力大学计算机系主任鲁斌,揭秘了这份数据集的研发历程与赋能保定产业升级的深层价值。

赛场锋芒:

220万条全球数据惊艳评审

“大赛采用‘8+4’专业竞技模式,11位权威专家从数据规模、质量、应用价值等多维度严苛评审,能在决赛30个数据集作品中突围,关键在于‘海研’数据集的独特性与实用性。”鲁斌回忆起获奖场景仍难掩激动。

作为华北电力大学复杂能源系统智能计算教育部工程研究中心的核心研发成果,“海研”数据集整合NSF(美国国家科学基金会)、NIH(美国国立卫生研究院)、UKRI(英国研究与创新署)等全球七大顶尖科研基金机构的公开数据,涵盖能源、人工智能、医疗、金融等关键领域,累计收录220万条项目记录、20GB文本数据,近五年新增数据占比达30%,可动态捕捉全球科研热点与技术趋势。

“与同类数据集相比,我们实现了多语种一站式检索和AI智能关联,能让科研人员快速定位前沿成果,这也是大赛中我们的核心竞争力。”鲁斌告诉记者。

研发始末:

三年攻坚破解“数据孤岛”难题

谈及数据集的研发初衷,鲁斌坦言源于科研实践中的痛点。“多年前,我们团队在开展能源领域科研项目时发现,全球科研数据分散在不同机构平台,格式不统一、检索效率低,科研人员往往要花费大量时间搜集整理,严重影响创新效率。”

在华北电力大学计算机系的“海研”工作室里,这样的攻坚场景每天都在上演。不大的房间里,10余名研究生专注伏案,指尖在键盘上快速敲击。“最具挑战性的是数据标准化处理,其实就是把全世界的科研项目统一成一套通用语义标准。”研发团队核心成员杨振宇介绍,团队梳理出统一的“科研项目语义标准”,构建出统一的数据字典和关联模型,实现项目数据与科研成果的闭环链接。

杨振宇调试智能关联算法,屏幕上不同国家的科研项目通过关键词、技术路线生成关联图谱,“刚完成两条新能源汽车科研数据语义匹配,已经可以通过‘海研AI’软件实现这些数据的智能关联与精准推荐。”

鲁斌介绍,如今“海研”数据集每月定期更新,利用其搭建的科研知识图谱底层框架,支撑多维度智能分析与深度推理,能够为科研管理、政策评估和前沿技术监测提供深层智能支撑。

赋能保定:

锚定重点产业打造创新引擎

高质量数据集,如同流淌在城市脉络中的“智慧血液”,正深度融入保定的产业肌理与生活场景。

在工作室,鲁斌正带领团队围绕某水利枢纽智能化升级项目展开研讨。屏幕上,“海研”数据集的可视化界面,清晰呈现着全球近三年来水利工程智能化领域的科研热点分布,同时呈现项目技术路线优化的建议报告。项目合作方工程师感慨:“原本我们花了三个月都没理清的全球技术趋势,借助‘海研’数据集两天就完成了梳理,还找到了多个可借鉴的核心技术方向。”

“获奖只是起点,让数据集服务地方产业升级才是最终目标。”鲁斌透露,数据集目标市场覆盖全球400万科研人员,按1%市场渗透率保守估算,年营收可达2400万元,商业价值与增长潜力显著。

数据显示,自承接国家数据标注基地建设任务以来,保定聚焦医疗、新能源、智能驾驶、人工智能评测等前沿领域,已建设并发布500余套数据集。同时,积极联合属地高校,共同打造11个行业大模型,有力推动传统产业智能化升级,在数字经济发展赛道上跑出“加速度”。

相关新闻