我国AI-Ready积雪覆盖率样本数据集构建研究获新进展

积雪覆盖率(FSC)是冰冻圈与陆气界面能量、水分交换的关键变量,在水文预报、水资源管理、气候变化监测等领域发挥着重要作用。传统FSC反演方法在复杂地形、高植被覆盖区域精度受限,而新兴的机器学习与深度学习FSC估算方法虽能捕捉高维非线性关系,但因缺乏大规模、标准化、跨区域的人工智能就绪(AI-Ready)FSC数据集,且无统一的数据集构建标准流程和评估规范,难以在大尺度、长时序FSC监测中充分发挥效能。因此,构建符合AI-Ready标准的FSC数据集,已成为推动人工智能驱动积雪监测研究取得突破的关键。

中国科学院西北生态环境资源研究院研究团队利用多源卫星遥感数据(Landsat-5/7/8/9、Sentinel-2及中分辨率成像光谱仪(MODIS))与多维度环境要素,构建了大规模、标准化、面向人工智能应用的积雪覆盖度样本数据集——ChinaAI-FSC。该数据集建立了系统的数据集构建标准流程与科学的评估规范,通过多源数据融合、严格质量控制、标准化组织,形成了高质量、可复用的AI-Ready样本库。

ChinaAI-FSC包含47,728个高质量样本,每个样本为128×128 MODIS像元瓦片,参考真值由Landsat-5/7/8/9和Sentinel-2高分辨率影像生成,覆盖中国全部陆地范围及三大稳定积雪区。数据集提取了20个特征变量,包括MODIS地表反射率(波段1–7)、地形属性、森林与土地覆盖信息及地理位置因子,可同时支持基于“点”和“面”两种人工智能建模范式。

在质量控制方面,研究建立了像素和瓦片两级综合质量控制体系,从光谱—积雪物理一致性、温度—积雪能量平衡一致性等多维度进行严格筛选。提出了“四层—四域—十五属性(4L-4D-15A)”人工智能就绪性评估协议,从数据、信息、系统、应用四个维度全面评估数据集。

该评估体系也可推广应用于土壤湿度、植被、地表温度等其他地球物理变量研究中。ChinaAI-FSC的构建,为人工智能驱动的大尺度、长时序积雪覆盖监测提供了高质量数据基础,推动了相关算法的可复现与互操作,有望显著提升复杂地表条件下积雪覆盖度反演的精度与泛化能力。

研究成果以ChinaAI-FSC: A Comprehensive AI-Ready MODIS Fractional Snow Cover Dataset for China (2000-2022)为题发表在国际期刊Earth System Science Data上。数据集发布在国家冰川冻土沙漠科学数据中心,用户可开放获取。西北研究院侯金亮副研究员为论文第一作者,张莹副研究员、黄春林研究员为共同通讯作者。该研究得到国家自然科学基金等项目资助。

论文链接:https://doi.org/10.5194/essd-18-1995-2026

数据集链接:https://www.ncdc.ac.cn/portal/metadata/e44b23cc-0aad-43ec-90c5-9eb1882c696f