华为云提出盘古气象大模型:中长期气象预报精度首次超过传统数值方法,速度提升10000倍以上
2023-07-07
上世纪20年代以来,特别是近三十年随着算力的迅速发展,数值天气预报在每日天气预报、极端灾害预警、气候变化预测等领域取得了巨大的成功。但是随着算力增长的趋缓和物理模型的逐渐复杂化,传统数值预报的瓶颈日益突出。研究者们开始挖掘新的气象预报范式如使用深度学习方法预测未来天气。在数值方法应用最广泛的领域如中长期预报中,现有的AI预报方法精度仍然显著低于数值预报方法,并受到可解释性欠缺,极端天气预测不准等问题的制约。
盘古气象大模型由盘古团队发布,主要完成人为毕恺峰、谢凌曦、张恒亨、陈鑫、顾晓韬以及田奇老师。
气象预报是科学计算领域最重要的场景之一,对未来天气变化的预测特别是对极端天气如暴雨、台风、干旱、寒潮的预测至关重要。传统数值预报使用数学物理方程建模大气状态并使用计算机仿真方法求解方程得到未来天气状态,在过去三十年取得了令人瞩目的成功。但是,随着算力增长的趋缓和物理模型的日益复杂,数值气象预报方法也逐渐遇到了瓶颈:一方面,传统数值预报对算力的消耗非常大,如0.25^\circ\times0.25^\circ精度的未来10天数值预报,需在超过3000个节点的超级计算机上花费数小时进行仿真;另一方面,复杂的参数化物理模型始终是不完备的,对物理过程的参数化,不可避免地向数值预报引入系统误差。
盘古气象大模型首次在中长期气象预报上超过了传统数值方法。训练和测试均在ERA5数据集上进行,其包括43年(1979-2021年)的全球实况气象数据。其中,1979-2017年数据作为训练集,2019年数据作为验证集,2018、2020、2021年数据作为测试集。盘古大模型使用的数据,包括垂直高度上13个不同气压层,每层五种气象要素(温度、湿度、位势、经度和纬度方向的风速),以及地球表面的四种气象要素(2米温度、经度和纬度方向的10米风速、海平面气压)。图1展示了盘古气象大模型的一些结果。我们可以看到,盘古气象大模型全方位地超过了现有的数值预报方法(欧洲气象中心的operationalIFS)。例如,盘古气象大模型提供的Z500五天预报均方根误差为296.7,显著低于之前最好的数值预报方法(operationalIFS:333.7)和AI方法(FourCastNet:462.5)。同时,盘古气象大模型在一张V100显卡上只需要1.4秒就能完成24小时的全球气象预报,相比传统数值预报提速10000倍以上。
盘古气象大模型的思路十分明确:气象数据和图像数据具有很多相似之处,能否利用当前CV领域的大模型,对于气象数据进行分析?在前人工作(如英伟达的FourCastNet)的基础上,盘古研究团队发现:AI气象预报模型的精度不足,主要有两个原因。第一,现有的AI气象预报模型都是基于2D神经网络,无法很好地处理不均匀的3D气象数据。第二,AI方法缺少数学物理机理约束,因此在迭代的过程中会不断积累迭代误差。为此,本文提出了3DEarth-SpecificTransformer(3DEST)来处理复杂的不均匀3D气象数据,并且使用层次化时域聚合策略来减少预报迭代次数,从而减少迭代误差。
中长期气象预报需要多次迭代模型得到预报结果。例如,FourCastNet需要调用6小时预测间隔的AI模型共计28次,以得到7天的预测结果。由于缺少数学物理机理约束,AI模型的迭代误差随着迭代次数的增加而迅速上升。如图4所示,把盘古气象预报的6小时模型迭代了28次得到的7天预报结果,精度明显低于24小时模型迭代7次的预报结果;而如果使用1小时模型迭代168次,预报误差则呈现超线性上升趋势。
【算力消耗】为了训练每个模型,研究人员使用1979-2021年的气象数据,以小时为单位采样,训练了100个epoch。每个模型需要在192块V100显卡上训练16天。事实上,即使经历100个epoch,这些模型依旧没有完全收敛。也就是说,在计算资源更加充足的情况下,AI预报的精度还能够进一步提升。推理时,盘古气象大模型仅需在一张V100显卡上运行1.4秒,即可完成24小时全球气象预报。相比传统数值预报,计算速度的提升超过10000倍。
【可视化】如图1和图6所示,盘古气象大模型可以很好地预测细粒度气象特征。同时,在可视化中可以观察到,AI预报的结果通常更加平滑,而数值预报则更经常地预测出一些不存在的特征。这反映出AI气象预报和传统气象预报间存在差异性和互补性。
【诊断实验】本文提供两个诊断实验。
【总体极端天气预测趋势】与FourCastNet一样,盘古气象大模型计算了RQE值来衡量不同预报方法的极端天气预测趋势(具体数学定义参见论文)。RQE值小于0表示模型倾向于低估极端天气影响,RQE值大于0表示模型倾向于高估极端天气影响,RQE值接近0表示模型预报更准确。从图8中可以看出,AI方法和数值方法都倾向于低估极端天气影响。盘古气象大模型在Q500上表现的比operationalIFS强(低估得更少),在U500上表现的比operationalIFS弱(低估得更多),在U10上一开始表现的比operational强,最后表现的比operationalIFS略弱。得益于高效的层次化时域聚合算法,盘古气象大模型在U10上的RQE结果明显高于FourCastNet(低估得更少),这也对应于盘古气象大模型在确定性预报上精度更高的事实。
最后,本文还探索了使用盘古气象大模型进行集成预报的简单方法。研究人员向模型的输入中加入随机珀林噪声,得到99组输入扰动的预报和1组输入未扰动的预报。如图11所示,简单的输入扰动形成的集成预报,其短期(<2天)预报精度略低于未经扰动的确定性预报,而其长期(>5天)预报精度明显高于未经扰动的确定性预报。例如,集成预报的平均值把Z500和U10的7天预测均方根误差从500.3和3.48降低至450.6和2.96,相对下降达到10%和15%以上。结合气象知识使用相似的方法可以得到更加有效的集成预报,例如使用奇异向量法扰动盘古气象大模型的输入。受限于作者有限的气象知识,研究人员期待,在经验更丰富的气象专家介入之后,盘古气象大模型的集成预报效果能够得到进一步的提升。
本文介绍了一个基于人工智能的数值天气预报系统:盘古气象大模型。本文的主要技术贡献包括(i)设计3DEarth-Specific(3DEST)网络结构和(ii)应用层次化时域聚合策略。通过在39年的全球天气数据上训练深度神经网络,盘古气象大模型首次在精度和速度方面超越了传统的NWP方法。盘古气象大模型具有极高的预报速度,为气象学家将他们的知识整合到基于人工智能方法中提供了便利。
1.关于“AI方法能够超过传统NWP方法”的论断
2.再分析数据也许不能实时获得,因而此类AI算法可能不实用
3.为什么我们坚信AI方法一定是气象预报的未来趋势
4.AI方法是否会取代传统方法?
AI进入任何一个领域时,都会有类似的声音和担忧。举例说,AI与医学影像分析已经结合了10年以上,至今AI方法还是起到辅助作用,无法替代医生,特别是高水平专家。在气象领域也是一样:盘古虽然在全球预报上超越了传统方法,但是它也存在一些弊病,例如总是低估台风强度(路径准确、中心气压预估偏高),又例如可解释性不足。因此,我们的结论是明显的。第一,AI在量化评测上超过传统方法,已是不争的事实。第二,AI方法短期内无法彻底取代传统方法,两者需要深度融合。我呼吁气象学家们与AI领域深度合作,共同探索这一激动人心的新方向。