译者:zzllrr小乐(数学科普公众号)2024-12-7
爆炸的恒星能告诉我们血液如何流经动脉?游动的细菌能告诉我们海洋的各洋流层如何混合?来自大学、科学慈善机构和国家实验室的研究人员合作,在训练AI人工智能模型以寻找和利用看似完全不同的领域之间的可迁移知识以推动科学发现方面取得了重要里程碑。
“这些开创性的数据集是迄今为止为这些领域收集的用于机器学习训练的最多样化的大规模高质量数据集合,”PolymathicAI成员、纽约市Flatiron(熨斗)研究所的研究工程师MichaelMcCabe表示。“整理这些数据集是创建多学科AI模型的关键一步,这将使我们能够发现有关宇宙的新事物。”
“免费提供的数据集是开发复杂机器学习模型的空前资源,这些模型随后可以解决各种科学问题,”PolymathicAI成员、Flatiron研究所CCM计算数学中心研究员RubenOhana表示。“机器学习社区一直是开源的;这就是为什么它与其他领域相比发展如此之快的原因。我们认为,共享这些开源数据将使机器学习和科学界受益。这是一个双赢的局面——你拥有可以开发新模型的机器学习,同时,科学界也可以看到机器学习能为他们做些什么。”
McCabe表示:“我们一次又一次地看到,推动机器学习发展的最有效方法是接受艰难的挑战,并让更广泛的研究社区能够接受这些挑战。每次发布新的基准时,它最初似乎都是一个难以克服的问题,但一旦挑战被更广泛的社区接受,我们就会看到越来越多的人深入研究,比任何单个团体单独行动速度更快地加速进步。”
博学人工智能项目由西蒙斯基金会及其Flatiron研究所、纽约大学、剑桥大学、普林斯顿大学、法国国家科学研究中心和劳伦斯伯克利国家实验室的研究人员负责运营。
“机器学习在天体物理学领域已经出现了大约10年,但它仍然很难跨仪器、跨任务、跨科学学科使用,”PolymathicAI研究科学家FrancoisLanusse表示。“像多模态宇宙这样的数据集将使我们能够构建能够原生理解所有这些数据的模型,并可用作天体物理学的瑞士军刀。”
总的来说,数据集高达100TB,是一项艰巨的任务。“我们的工作来自大约十几个研究所和二十几位研究人员,为机器学习成为现代天文学的核心组成部分铺平了道路,”PolymathicAI成员、牛津大学施密特人工智能研究员MicahBowles说。“只有通过PolymathicAI团队以及来自世界各地的许多专业天文学家的广泛合作,才能收集到这个数据集。”
“该数据集涵盖了各种物理模拟,旨在解决当前机器学习模型的关键局限性,”CCM研究员、PolymathicAI成员RudyMorel表示。“我们渴望看到在所有这些场景中表现良好的模型,因为这将是向前迈出的重要一步。”
各种模拟数据集举例如下:
1.声散射
声学方程
这些可变系数声学方程描述了声压波在由具有不同散射特性的多种材料组成的区域中的传播。这个问题出现在源优化中,它是反问题-即从波的散射中识别材料特性-是地质学和雷达设计中的一个重要问题。其中ρ=材料密度,u,v分别为x,y方向上的速度,p=压力,K=体积弹性率。
声散射(不连续)
波通过不连续介质传播。大多数现有的计算物理机器学习数据集都非常平滑,这里提出的声学挑战提供了具有挑战性的不连续场景,这些场景通过可变密度来近似复杂的几何结构。
声散射(杂物)
杂物会改变波的传播速度,但仅限于小的不规则区域。
声散射(迷宫)
压力波从点源出现,并穿过由低密度迷宫路径和高密度迷宫墙组成的域传播。这主要是作为机器学习方法的挑战而构建的,尽管它与建筑物中的最佳放置问题(如WiFi)具有相似的属性。
声散射(迷宫)遍历
2.活性物质
浸在斯托克斯流体中的棒状活性粒子
3.红色超巨星对流包络
大质量恒星演化成红超巨星,它们具有较大的半径和光度,以及低密度、湍流、对流包络。这些模拟模拟了(本质上是3D)对流特性,并提供了对超新星爆炸前源的见解。
4.欧拉多象限-黎曼问题(可压缩,无粘性流体)
其中ρ=密度,u,v分别是x,y方向的速度分量,e=能量、p=压力、γ=气体常数、A>0是熵的函数。
刻画激波的形成和相互作用。多尺度冲击。
边界条件:开放
边界条件:周期性
5.Gray-Scott反应-扩散方程中的模式形成
6.2D楼梯上的亥姆霍兹方程
周期性表面对非周期声源散射的第一个高阶精确解,与其在波导应用(天线、光栅衍射、光子/声子晶体、噪声消除、地震滤波等)中的应用有关。
在无限周期性边界附近精确求解偏微分方程会带来数值挑战,因为这些表面充当波导,允许模式从源头传播很长距离。此属性使得(无限)解域的数值截断不可行,因为它会引起较大的人工反射,从而产生误差。只有当入射波也是周期性的(例如平面波)时,才可以进行周期化(将计算域减少到一个基本单元),但对于非周期源(例如点源)则不行。然而,从点源计算高阶精确散射解将具有科学意义,因为它模拟了遥感、光栅衍射、天线或声学/光子超材料等应用。结合使用Floquet-Bloch变换(也称为阵列扫描方法)和边界积分方程方法来缓解这些挑战,并将散射解恢复为由其表面波数参数化的准周期解系列的积分。这种方法的优点是,每个准周期解都可以通过周期化快速计算,并通过高阶正交准确计算。
该仿真刻画了俘获声波的存在,即沿波纹表面引导的模式。还表明,俘获模式的表面波数与入射辐射的频率不同,即它们刻画了俘获模式的色散关系。
7.磁流体动力学(MHD)可压缩湍流
其中ρ=密度,v=速度,B=磁场,I=单位矩阵,p=气体压力。
这是在可压缩极限(亚音速、超音速、亚Alfven速度、超Alfven速度)内的MHD流体流动。
太阳风、星系形成和星际介质(ISM)动力学的重要组成部分是磁流体动力学(MHD)湍流。该数据集由无自重的等温MHD模拟(例如在漫射ISM中发现)组成。
8.行星浅水效应(SWE-shallowwatereffect)
球面上的受力高粘性旋转的浅水,具有类似地球的地形和每日/每年的周期性受力。
其中h=压力表面高度与平均值的偏差,H=平均高度,u=二维速度,Ω=科里奥利(Coriolis)参数,即地转偏向力参数,F=受力。
浅水方程基本上是3D流的2D近似值,其中水平长度尺度明显长于竖直长度尺度。它们是通过对不可压缩的Navier-Stokes方程进行深度积分得出的。积分维度仅作为变量保留在方程中,用于描述流上方压力表面的高度。长期以来,这些方程一直被用作单个气压级大气建模中原始方程的简单近似,最著名的是Williamson威廉姆森测试问题。这种情况可以看作类似于威廉姆森问题7,因从ERA5(欧洲中期天气预报中心)中的hPa500压力水平得出初始条件。然后,使用真实的地形和两个级别的周期性来模拟。
9.中子星合并后
标准辐射传输方程
这里的模拟是全三维广义相对论中微子辐射磁流体动力学的轴对称快照。该等离子体物理学对有限体积处理,带有曲线网格上的磁场约束传输。该系统是假设核统计平衡(NSE)的表格式核方程封闭的。辐射场通过蒙特卡洛输运处理,这是一种粒子方法。粒子不包含在此数据集中,但它们的影响在流体上显示为源项。
10.Rayleigh-Bénard对流
这些PDE由Rayleigh和Prandtl数通过热扩散率κ和粘度ν参数化。其中1/κ2;=瑞利数*普朗特数,1/ν2;=瑞利数/普朗特数。Δ=是空间拉普拉斯算子,b=浮力,u=(u_x,u_y)(水平和垂直)速度,p=压力,e_z=垂直方向上的单位向量,有附加约束∫p=0。
Rayleigh-Bénard(瑞利-贝纳德)对流涉及流体动力学和热力学,从下方加热的水平流体层中可以看到,由于温度梯度而形成对流元胞。随着下板加热而上板冷却,热能产生密度变化,从而启动流体运动。这导致贝纳德元胞,表现出暖流体上升和冷流体的下降。浮力、传导和粘度的相互作用导致复杂的流体运动,包括漩涡和边界层。
Rayleigh-Bénard对流数据集为热梯度下的流体动力学提供了有价值的见解,揭示了湍流涡流和对流元胞等现象。这种元胞的位置对初始条件下的微小变化高度敏感。了解这些动力学对于工程和环境科学的应用至关重要。
11.Rayleigh-Taylor不稳定性
在具有相同分子扩散率的混溶流体的情况中,流动由连续性、动量和不可压缩性方程控制:
其中,ρ=密度,u=速度,p=压力,g=重力,κ=分子扩散系数,τ=偏应力张量,ν=运动粘度,I=单位矩阵。
谱形和分量相对Rayleigh-Taylor湍流发展的影响。考虑一系列Atwood数和初始扰动的Rayleigh-Taylor不稳定性,所有这些都是随机相位具有对数正态水平能谱。该数据集研究了均值、标准差和随机相位的差异如何影响到随之而来的湍流的转变和统计。
在这个数据集中,物理趣味性有三个关键方面。首先,相干性对其他随机初始条件的影响。其次,初始能谱的形状对流动结构的影响。最后,从Boussinesq到非Boussinesq状态的转变,其中混合宽度从对称增长过渡到不对称增长。
12.周期性剪切流
其中Δ=是空间拉普拉斯算子,u=(u_x,u_y)(水平和垂直)速度,s=示踪剂,p=压力,有附加约束∫p=0。
这些PDE由Reynolds数和Schmidt数通过粘度ν和扩散率D参数化。ν=1/Reynolds数,D=ν/Schmidt数。
剪切流(shearflow)是一种流体,其特征是相邻流体层以不同的速度相互滑动而连续变形。这种现象常见于各种自然和工程系统,例如河流、大气边界层和涉及流体传输的工业过程。该数据集探索了由不可压缩的Navier-Stokes方程控制的二维周期性剪切流。
剪切流是流体力学和湍流中存在的非线性现象。预测不同雷诺数和施密特数下的剪切流行为对于空气动力学、汽车、生物医学领域的许多应用至关重要。此外,这种流动在大雷诺数下是不稳定的。
13.星系中湍流星际介质中的超新星爆炸
密集的冷气体云中的冲击波。
其中P、ρ、u是压力。r=位置,a_visc=粘度产生的加速度,Φ=重力势,Γ=每单位体积的辐射热流入,Λ=每单位体积的辐射热流出。
该模拟被设计为超新星爆炸,即大质量恒星在最后一刻在具有大密度对比的高密度造星分子云中的爆炸。假设单原子理想气体的绝热压缩。为了模拟爆炸,巨大的热能(101;erg)被注入到计算盒的中心,并产生冲击波,从而扫除称为超新星反馈的环境气体和外壳。超新星和周围气体之间的这些相互作用很有趣,因为恒星是在密集和寒冷的地区形成的。
14.星系中的湍流星际介质
星系不同演化阶段中星际介质中的湍流(方程组同上例)。
15.湍流辐射层-2D
在天体物理系统中,热气体相对于冷气体移动,这导致混合,混合填充了高度反应性的中温气体——在这种情况下,它会迅速冷却。
二维
三维
在这个模拟中,底部有冷的浓密气体,顶部有热的稀气体。它们以亚音速相对移动。这种设置对于KelvinHelmholtz是不稳定的,KelvinHelmholtz不稳定性萌生于模拟之间有变化的小尺度噪声。热气体和冷气体都处于热平衡状态,因为加热和冷却是完全平衡的。然而,一旦由于开尔文-亥姆霍兹不稳定性引起的湍流而发生混合,中间温度就会变得拥挤。这种中温气体不处于热平衡状态,冷却优于加热。这导致从热相到冷相的净质量通量。这个过程发生在星际介质中,而在环星系介质中,当冷云穿过周围的热介质时。通过了解总冷却和传质如何随冷却速率的变化,我们能够限制这个过程如何控制星系内部和周围气体的整体相结构、能量和动力学。
16.二维通道流中粘弹性流体的多重稳定性
其中u*=(u*,v*)是流向和壁法向的速度分量,p*=压力,C*=正定构象张量,它表示聚合物分子端到端向量产生的集成平均值。在2D中,求解出张量的4个分量:c*_xx,c*_yy,c*_zz,c*_xy,T(C*)=FENE-P模型给出的聚合物应力张量。
粘弹性流动中的多重稳定性,即根据初始条件,对于同一组参数观察到四种不同的吸引子(统计稳定状态)。
数据中令研究者感兴趣的现象是:(i)EIT和CAR中粘弹性流动中的混沌动力学。另请注意,它们是单独的状态。(ii)对于同一组参数的多重稳定性,流根据初始条件有四种不同的行为。
尾声
Ohana表示,收集这些数据是一项挑战。该团队与科学家合作,为该项目收集和创建数据。“数值模拟的创造者有时会因为过度炒作而对机器学习持怀疑态度,但他们对它以及它如何使他们的研究受益并加速科学发现感到好奇,”他说。
PolymathicAI团队本身现在正在使用这些数据集来训练AI模型。在接下来的几个月里,他们将把这些模型部署到各种任务上,看看这些全面、训练有素的AI在解决复杂的科学问题方面有多成功。
“了解机器学习模型如何在来自不同物理系统的数据集之间进行概括和插值是一项令人兴奋的研究挑战,”CCM研究员、PolymathicAI成员Régaldo-SaintBlancard说。
PolymathicAI团队已开始使用这些数据集训练机器学习模型,PolymathicAI项目负责人ShirleyHo表示:“早期结果非常令人兴奋。”ShirleyHo是Flatiron研究所计算天体物理中心的团队负责人。“我也很期待看到其他AI科学家会如何处理这些数据集。就像蛋白质数据库催生了AlphaFold一样,我很高兴看到Well和多模态宇宙数据集将帮助创造什么。”Ho将在NeurIPS会议上发表演讲,重点介绍这项工作的用途和巨大潜力。