前沿技术跟踪专栏:大模型数据中心无损以太网极速互联解决方案

大模型数据中心无损以太网极速互联解决方案

随着全球企业数字化转型的加速进行,当前以ChatGPT为代表的应用在生产、生活领域的不断深入,ChatGPT热度暴增的背后,代表着人工智能等内容自动生成技术所需要的基础设施需求也水涨船高。

1、智能算力增长趋势

未来5年我国智能算力规模年复合增长率将达52.3%。据《2022-2023中国人工智能计算力发展评估报告》,2021年中国智能算力规模达155.2EFLOPS(FP16),预计到2026年中国智能算力规模将达到1271.4EFLOPS。2021~2026年期间,预计中国智能算力规模年复合增长率达52.3%。

随着“东数西算”工程、新型基础设施等国家政策规划出台,我国智算中心掀起建设热潮。当前我国超过30个城市正在建设或提出建设智算中心,整体布局以东部地区为主,并逐渐向中西部地区拓展。从发展基础层面看,围绕AI产业化和产业AI化的发展思路,人工智能产业已初步形成以异构芯片、算力设施、算法模型、产业应用为核心的架构体系,智算中心具备建设基础。

2、规模化智能算力底座的构建

训练超大基础模型需要多方面的关键技术作为支撑,算法、算力和数据缺一不可。算法依赖大模型参数的提升以及模型本身的优化,而算力和数据则需要依赖传统的GPU服务器、存储以及网络来实现相互促进。

数据显示,ChatGPT的总算力消耗约为3640PF-days(即假如每秒计算一千万亿次,需要计算3640天),需要7~8个投资规模30亿、算力500P的数据中心才能支撑运行。ChatGPT按照1300万/天的访问量,估算需要3万+GPU。GPU在训练过程中会进行频繁通信,包括P2P通信和Collective通信。在节点内,GPU之间的通信互联带宽可达400GB/s。在节点之间,GPU通信使用RDMA网络,通过GDR(GDR,GPUDirectRDMA)技术支持,RDMA网卡可以绕过CPU、内存,直接从远端节点读取数据到GPU显存。

3、智能无损高性能网络解决方案

以大规模化部署的互联网行业为例,某互联网公司紧跟ChatGPT等AI训练为契机搭建单PoD支持4000个200G端口的集群算力网络。在以科研、教育为依托的智算中心当前PoD内部署端口数通常在1000~4000个之间,因此新华三提供了多种可选的高性能网络方案,完全满足用户不同业务场景规模。

3.1盒盒组网方案

当前主力的GPU服务器100G/200G/400G网卡速率,以新华三采用最新的S9825/S9855等系列三层ToR/Leaf/Spine组网架构为例,Spine采用双平面并且保证ToR上下行收敛比满足1:1要求。在服务器接入速率400G下单PoD可以支持1024台服务器,集群可以提供2048台400G服务器规模接入;若采用200G速率则可以提供单PoD支持2048台服务器,集群最大支持32个PoD理论可满足6.5万台服务器规模接入;若采用100G速率接入则可以满足集群最大可超过十万台服务器规模接入。

图1三级盒式架构200G接入组网

对于确定性规模的无损网络而言,新华三提供“一框即无损”的轻量级智能无损网络部署方案,同样可以满足绝大多数场景的智算组网需求。

以S12516CR满配576个400G端口为例,单框作为作为ToR直接于服务器网卡连接实现1:1收敛,最大可以支持单PoD576个400GQSFPDD端口接入;200GQSFP56可以满足最大1152个端口接入;而100GQSFP56可以满足最大1536个端口接入。需要注意的是采用400GDR4直接拆分可以得到超过2000个DR1封装的100G端口,而当前主流网卡均不支持DR1。采用单框无损的优势显而易见,采用组网架构摒弃传统的Leaf/Spine架构,可以有效降低设备数量,降低数据转发跳数有效降低数据转发时延,同时无需计算多层级下的收敛比以及设备规模等,大大简化部署和选型难度并且有效提升组网效率。对于确定性规模的智能无损网络不失为一种新的尝试。

图2“一框即无损”200G接入组网

3.2框盒组网方案

对于有着更大规模组网的需求,新华三数据中心网络提供框盒无损架构。

同样以GPU服务器100G/200G/400G网卡速率为例,若采用新华三旗舰数据中心框式产品S12500CR系列构建ToR/Leaf/Spine三层组网架构,单台S12516CR作为Spine并且保证ToR上下行收敛比满足1:1要求。在服务器接入速率400G下单PoD可以支持千台服务器,集群理论最大可以提供近59台400G服务器规模接入;若采用200G速率则可以提供单PoD支持两千台服务器,集群提供近118万台服务器规模接入;若采用100G速率接入集群最大可以提供超200万台服务器规模接入。下图即为三层框式架构200G接入组网

图3三层框式架构200G接入组网

3.3DDC技术应用

对于数据中心交换机而言,不论是传统的机框式或者盒式交换机随着端口速率从100G提升到400G。不仅要面临功耗问题,同样要解决盒式组网的Hash精度以及大象老鼠流。因此新华三数据中心交换机在构建智能无损算力数据中心网络时优先采用DDC(DistributedDisaggregatedChassis)技术应对日益增长的算力网络方案。DDC技术通过对大机框设备进行分布式解耦,采用盒式交换机作为转发线卡和交换网板,灵活分布式部署在多个机柜,优化组网规模以及功耗分布问题,同时DDC盒式交换机之间依旧采用信元交换。DDC系统各角色包括NCP:NetworkCloudPacket(LinecardinChassis)、NCF:NetworkCloudFabric(FabriccardinChassis)、NCM:NetworkCloudManagement(MainManagementcardinChassis)。

图4DDC架构

图5DDC架构解耦,400GFullmesh全互联

4、智算中心的网络智能化与流量可视化

智算中心的服务模式从提供算力为主向提供“算法+算力”转变,在智能无损网络中同样需要AI无损算法加持。

数据采集分析层:提供用于获取海量待分析的特征数据的数据采集接口,并对获取到的这些数据进行预处理和分析。

模型管理层:管理模型文件,并基于用户加载的AI功能模型,推理得到AIECN门限。

算法层:调用数据采集分析层的接口得到实时特征数据,按照固定步长的搜索试算法计算得到AIECN门限。

图6AIECN功能实现示意图

数据中心网络可提供AIECN运维可视化。根据AI业务组件在网络中的实施位置不同,AIECN功能可以分为集中式AIECN和分布式AIECN两种模式。两种模式可以借助SeerAnalyzer分析器的优势,为用户呈现可视化的AIECN参数调优效果。

分布式AIECN:AI业务组件集成在设备本地,通过在设备中增加专门的神经网络(GPU)芯片来满足AI业务组件对算力的需求。

集中式AIECN:AI业务组件由分析器实现。适用于未来SDN网络架构,方便包括AIECN在内的所有AI业务进行集中式管控和可视化运维。

THE END
1.ChatGPT价格里掩盖的算力分布秘密新程序员ChatGPT 是一个复杂的自然语言处理平台,利用先进的机器学习算法来分析和创建类似人类的文本或说话方式。它的功能非常广泛,包括文本推演、文本分类和语言翻译等。针对这类模型,合理的定价方式会是一个有意思的问题。 对此,OpenAI 给出的答案非常新颖,其 ChatGPT 平台并没有按调用次数定价,而是对数据处理进行定价,这让https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/136265725
2.CHATGPT和算力有什么关系算力对于CHATGPT的训练、模型规模和推理速度都有一定的影响。较大的算力可以提供更快、更高质量的训练http://www.hlwwhy.com/ask/6709750.html
3.从ChatGPT爆火看人工智能大势开放注册两个月用户数破亿,ChatGPT火爆的背后是人工智能算法、算力和数据的再一次融合升级。现象级的ChatGPT带动人工智能第三次浪潮的再次飞跃和各国、各企业的AI竞赛。在人工智能领域,全球目前尚未形成绝对主导的技术依赖和产业生态,我国的新型举国体制如能发挥更大的作用,将给AI的发展提供极为有力的支持。中国人工https://www.cnii.com.cn/gxxww/zgdxy/ztjj/202304/t20230420_464182.html
4.毕文轩:生成式人工智能的风险规制困境及其化解:以ChatGPT的规制为摘要:以ChatGPT为代表的生成式人工智能技术产生,在极大地提升人们工作效率的同时,也在相关领域带来了诸多法律风险。这种风险具体表现为:数据使用风险、生成内容滥用风险、算法滥用风险以及其他风险。目前我国虽然已经初步具备了有关人工智能的基本治理框架,但相关的理论以及实践仍在治理主体、治理规范设置、治理手段以及治理http://fzzfyjy.cupl.edu.cn/info/1035/15616.htm
5.一.ChatGPT只有有限的技术壁垒机器学习的核心算法是都是公开的算力是有后发优势的 每一年计算机的算力都在大量提升 只要晚几年甚至几个月就可以靠更强大的算力弥补很多东西 比如语音识别领域 小度 天猫精灵 小爱 Siri Alexa之间的差别都非常小 不能说小米和苹果在科技上已经拉平了 而是语音识别的难度已经很低了 二. ChatGPT只是一个处理自然语言的NLP模型 不可以进行预测 也https://xueqiu.com/3976999949/242252671
6.ChatGPT大模型训练数据集深度分析2024众所周知,算法、数据、算力是大模型时代的四方面重要因素。根据OpenAI 前期论文[16]和博客1介绍,ChatGPT 中数据集的规模和构建质量均高于以往的人工标注数据集。由此可见,在以 ChatGPT 为代表的大模型的训练中,数据集的收集、清洗和标注异常重要。本章将从预训练数据集以及人工标注的精调数据集两方面,详细介绍 http://www.360doc.com/content/24/0725/11/3066843_1129635578.shtml
7.2023ChatGPT人工智能新纪元.pdfChatGPT会成为科技行业的下一个颠覆者。 GPT的英文全称为GenerativePre-trainedTransformer(生成式预训 练转换器),是一种基于互联网可用数据训练的文本生成深度学习模 型。ChatGPT“脱胎”于OpenAI在2020年发布的GPT-3,任何外行都可以 使用GPT-3,在几分钟内提供示例,并获得所需的文本输出。 GPT-3刚问世时也引起了https://max.book118.com/html/2024/0112/5304213221011041.shtm
8.专题人工智能通用大模型(ChatGPT)的进展风险与应对报告PDF合集本合集集中研究大语言模型产品的研发要素和核心特征,并从语言模型准确性、数据基础、模型和算法能力、安全和隐私四个维度入手,拆分出12个细分维度,分别是语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法能力、安全和隐私。针对ChatGPT、Claude、Saghttps://www.cnblogs.com/tecdat/p/17694573.html
9.是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现但这次以ChatGPT为代表的一众大语言模型,突然突破了这个门槛,变得非常“聪明”。当然背后的原因有很多,比如自监督学习、Fine-tuning策略等等,但有一个重要的底层变化——大语言模型的“涌现”(Emergent)现象,就是说一些业界从未想象到的能力,例如基础的社会知识、上下文学习(ICL)、推理(CoT)等等,在训练参数和数据量https://36kr.com/p/2210585582301824