大模型数据中心无损以太网极速互联解决方案
随着全球企业数字化转型的加速进行,当前以ChatGPT为代表的应用在生产、生活领域的不断深入,ChatGPT热度暴增的背后,代表着人工智能等内容自动生成技术所需要的基础设施需求也水涨船高。
1、智能算力增长趋势
未来5年我国智能算力规模年复合增长率将达52.3%。据《2022-2023中国人工智能计算力发展评估报告》,2021年中国智能算力规模达155.2EFLOPS(FP16),预计到2026年中国智能算力规模将达到1271.4EFLOPS。2021~2026年期间,预计中国智能算力规模年复合增长率达52.3%。
随着“东数西算”工程、新型基础设施等国家政策规划出台,我国智算中心掀起建设热潮。当前我国超过30个城市正在建设或提出建设智算中心,整体布局以东部地区为主,并逐渐向中西部地区拓展。从发展基础层面看,围绕AI产业化和产业AI化的发展思路,人工智能产业已初步形成以异构芯片、算力设施、算法模型、产业应用为核心的架构体系,智算中心具备建设基础。
2、规模化智能算力底座的构建
训练超大基础模型需要多方面的关键技术作为支撑,算法、算力和数据缺一不可。算法依赖大模型参数的提升以及模型本身的优化,而算力和数据则需要依赖传统的GPU服务器、存储以及网络来实现相互促进。
数据显示,ChatGPT的总算力消耗约为3640PF-days(即假如每秒计算一千万亿次,需要计算3640天),需要7~8个投资规模30亿、算力500P的数据中心才能支撑运行。ChatGPT按照1300万/天的访问量,估算需要3万+GPU。GPU在训练过程中会进行频繁通信,包括P2P通信和Collective通信。在节点内,GPU之间的通信互联带宽可达400GB/s。在节点之间,GPU通信使用RDMA网络,通过GDR(GDR,GPUDirectRDMA)技术支持,RDMA网卡可以绕过CPU、内存,直接从远端节点读取数据到GPU显存。
3、智能无损高性能网络解决方案
以大规模化部署的互联网行业为例,某互联网公司紧跟ChatGPT等AI训练为契机搭建单PoD支持4000个200G端口的集群算力网络。在以科研、教育为依托的智算中心当前PoD内部署端口数通常在1000~4000个之间,因此新华三提供了多种可选的高性能网络方案,完全满足用户不同业务场景规模。
3.1盒盒组网方案
当前主力的GPU服务器100G/200G/400G网卡速率,以新华三采用最新的S9825/S9855等系列三层ToR/Leaf/Spine组网架构为例,Spine采用双平面并且保证ToR上下行收敛比满足1:1要求。在服务器接入速率400G下单PoD可以支持1024台服务器,集群可以提供2048台400G服务器规模接入;若采用200G速率则可以提供单PoD支持2048台服务器,集群最大支持32个PoD理论可满足6.5万台服务器规模接入;若采用100G速率接入则可以满足集群最大可超过十万台服务器规模接入。
图1三级盒式架构200G接入组网
对于确定性规模的无损网络而言,新华三提供“一框即无损”的轻量级智能无损网络部署方案,同样可以满足绝大多数场景的智算组网需求。
以S12516CR满配576个400G端口为例,单框作为作为ToR直接于服务器网卡连接实现1:1收敛,最大可以支持单PoD576个400GQSFPDD端口接入;200GQSFP56可以满足最大1152个端口接入;而100GQSFP56可以满足最大1536个端口接入。需要注意的是采用400GDR4直接拆分可以得到超过2000个DR1封装的100G端口,而当前主流网卡均不支持DR1。采用单框无损的优势显而易见,采用组网架构摒弃传统的Leaf/Spine架构,可以有效降低设备数量,降低数据转发跳数有效降低数据转发时延,同时无需计算多层级下的收敛比以及设备规模等,大大简化部署和选型难度并且有效提升组网效率。对于确定性规模的智能无损网络不失为一种新的尝试。
图2“一框即无损”200G接入组网
3.2框盒组网方案
对于有着更大规模组网的需求,新华三数据中心网络提供框盒无损架构。
同样以GPU服务器100G/200G/400G网卡速率为例,若采用新华三旗舰数据中心框式产品S12500CR系列构建ToR/Leaf/Spine三层组网架构,单台S12516CR作为Spine并且保证ToR上下行收敛比满足1:1要求。在服务器接入速率400G下单PoD可以支持千台服务器,集群理论最大可以提供近59台400G服务器规模接入;若采用200G速率则可以提供单PoD支持两千台服务器,集群提供近118万台服务器规模接入;若采用100G速率接入集群最大可以提供超200万台服务器规模接入。下图即为三层框式架构200G接入组网
图3三层框式架构200G接入组网
3.3DDC技术应用
对于数据中心交换机而言,不论是传统的机框式或者盒式交换机随着端口速率从100G提升到400G。不仅要面临功耗问题,同样要解决盒式组网的Hash精度以及大象老鼠流。因此新华三数据中心交换机在构建智能无损算力数据中心网络时优先采用DDC(DistributedDisaggregatedChassis)技术应对日益增长的算力网络方案。DDC技术通过对大机框设备进行分布式解耦,采用盒式交换机作为转发线卡和交换网板,灵活分布式部署在多个机柜,优化组网规模以及功耗分布问题,同时DDC盒式交换机之间依旧采用信元交换。DDC系统各角色包括NCP:NetworkCloudPacket(LinecardinChassis)、NCF:NetworkCloudFabric(FabriccardinChassis)、NCM:NetworkCloudManagement(MainManagementcardinChassis)。
图4DDC架构
图5DDC架构解耦,400GFullmesh全互联
4、智算中心的网络智能化与流量可视化
智算中心的服务模式从提供算力为主向提供“算法+算力”转变,在智能无损网络中同样需要AI无损算法加持。
数据采集分析层:提供用于获取海量待分析的特征数据的数据采集接口,并对获取到的这些数据进行预处理和分析。
模型管理层:管理模型文件,并基于用户加载的AI功能模型,推理得到AIECN门限。
算法层:调用数据采集分析层的接口得到实时特征数据,按照固定步长的搜索试算法计算得到AIECN门限。
图6AIECN功能实现示意图
数据中心网络可提供AIECN运维可视化。根据AI业务组件在网络中的实施位置不同,AIECN功能可以分为集中式AIECN和分布式AIECN两种模式。两种模式可以借助SeerAnalyzer分析器的优势,为用户呈现可视化的AIECN参数调优效果。
分布式AIECN:AI业务组件集成在设备本地,通过在设备中增加专门的神经网络(GPU)芯片来满足AI业务组件对算力的需求。
集中式AIECN:AI业务组件由分析器实现。适用于未来SDN网络架构,方便包括AIECN在内的所有AI业务进行集中式管控和可视化运维。