建立高水平自立自强的计算技术新体系

建立高水平自立自强的计算技术新体系

(孙凝晖2022年2月25日)

习近平总书记提出:“加快建设科技强国,实现高水平科技自立自强”。计算所作为计算技术领域的国立研究所,新时期的目标就是要建立高水平自立自强的计算技术新体系,其中,针对处理器提出“C体系”、针对信息基础设施提出“信息高铁”体系。

一、处理器“C体系”

我们为了表述方便,把处理器新技术体系叫做“C体系”。

“C体系”狭义上指我国构建处理器生态的第三条道路及其技术体系。计算所高举自主创新大旗发展国产处理器20年了,依然没有完成国家在处理器芯片上的战略目标。处理器难的不是做出一款芯片,或者实现一个技术指标,而是处理器生态怎么构建,技术体系怎么可控。

从构建处理器生态的道路及其技术体系这个角度,可以把我国技术体系归纳成A、B、C三个,这三个体系是并行的,不是谁取代谁的关系。第一个体系叫做“A体系”,我国信息化的主流平台被X86、ARM生态所占领,海光、海思等国产处理器的道路强调“全兼容”,可以看作是技术体系可控的“高铁模式”。第二个体系叫做“B体系”,可以看作是技术体系可控的“北斗模式”,这个体系强调“全自主”,以龙芯和申威为代表,因为不跟市场主流兼容,所以生态弱,中科院重大项目攻关的大量技术是兼容技术,从指令集、操作系统这一层去兼容,把国外控制生态上的大量应用迁移到“B体系”中来。第三个体系叫做“C体系”,走“全开放”的道路,全世界一起来建生态,谁也不控制谁,谁也不能卡谁,像香山RISC-V、寒武纪NPU就是走的这条道路,可以看作是技术体系可控的“5G模式”。

图1:C体系处理器技术路径

把C体系处理器技术路径分成7层结构,如图1所示,其中把处理器跟软件做个对照,右边是软件成功的设计方法,左边是处理器设计方法。从这个角度来看,如果能构造出来这样一套体系,那就形成了跟X86、ARM很不同的一套新技术体系。

二、全球算力网

我们为了表述方便,把信息基础设施新技术体系叫做“信息高铁”。

“信息高铁”(InfoSuperBahn)的内涵是全球算力网(WorldWideComputing,简称WWC),是相对于全球万维网(WorldWideWeb)的新一代信息基础设施,它的核心技术特征是互联网模式并网、低熵高通量、与任务闭包抽象,跟交通系统中的高铁很类似。它不是WWW的下一代,是与WWW平行的构建在互联网之上的算力、算法、数据资产三者融合的信息智能加工底座,近期国家实施“东数西算”信息化建设重大工程,非常切合这个大思路。

1、基础设施的普及是时代的标志之一

图2:不同时代的标志性基础设施

普及性的基础设施是时代的标志之一,如图2所示。农业时代的标志之一是交通网基础设施的普及,中国为什么在农业时代走到世界的前列,是因为我国的道路、运河等农业生产的基础设施、农业物流的基础设施走在世界前列。工业时代的标志之一是能源网基础设施的普及,我国油气的网络、电力的网络,经过改革开放40年的基本建设,也是走在世界前列,特高压是中国在世界上最具代表性的基建成果之一。信息时代的标志之一是互联网基础设施的普及。那么智能时代的代表性基础设施是什么呢?我们认为算力网是其中之一。

运输、能源、信息、算力等供给的基础设施化就是对这些需求的普及化和服务化。一是要能普及,人人都能用;二是要变成服务,服务化是基础设施的一个标志。云计算还不能说是完善的基础设施,因为它不能实现所有场景的服务化。智能出行就做到了基础设施化,因为它做到了所有出行需求的服务化。

2、标准化与高级抽象是全球性基础设施的关键

在农业时代就有了道路、河流等运输基础设施,什么东西让它变成一个全球性的基础设施?起关键作用的是有了一个标准化容器——集装箱。集装箱就是货物运输的高级抽象。有了集装箱这个标准容器,无论是公路、铁路还是码头、海运,都是按照集装箱来构造的,货物的运输能力都是按多少标箱来计量,就实现了全球货物运输的基础设施化。所以标准化高级抽象非常重要。

在工业时代,电力就是能源的标准化高级抽象。有了电力以后,就有了一系列标准化的设备,比如逆变器是一个把直流变交流的标准化设备,特高压是一个远距离传输的标准化设备,锂电池是一个储能的标准化设备,还有变压器、插座、电表等,从发电、输电、储电、到用电、计量各个环节都被标准化了,全球能源互联网就是电力的跨洋输运。我们发展的新能源,不管是核能、光伏、风能、还是水能,都可以统一到电力抽象里边。未来的智能电动汽车将是交通、电力、信息、智能四个基础设施深度融合的产物,所以它必然发展迅速。

图3:信息处理环节的基础设施化历程

进入到智能时代,需要实现算力网——也就是算力、算法与数据对象融合的基础设施化,其中数据对象借鉴了图灵奖获得者罗伯特-卡恩的digitalobject提法。图3展示了信息处理环节的基础设施化历程。农业时代和工业时代的信息处理都是无“网”。信息时代,实现了以计算为中心的超算中心与网格,以数据为中心的数据中心与云计算中心,有了docker容器这样的标准化高级抽象,形成了算力站和算力网的雏形。在智能时代,需要发展出全球算力基础设施(WWC),以算法为中心,用高效适配的多样性算力对数据资产进行深加工,产出模型。新型算力站是高通量中心,需要“联云成网”的技术。我们提出一个算力容器的抽象概念叫网程(grip),包含算力、算法与数据对象的融合,是分布式操作系统调度的最小单元,借鉴了进程(process)这个单机上的算力容器概念。

3、为什么算力是智能时代的普及性需求?

信息、出行、金融、通讯都是普适性需求,那么算力是普及性需求吗?假设是的话,算力就是智能时代信息加工的“电力”。

智能的本质是什么?这是一个开放性问题,智能的一个核心特征就是对信息的复杂处理能力,复杂就需要更多的算力。

智能不仅仅是人脑具有的生物智能能力,在不同社会阶段有着不同的特点。在农业社会,发现和利用自然规律是一种智能,都江堰“人工智能水利工程”的分水排沙就是智能的体现;在工业社会,自动化机械就是一种智能形态;在信息社会,数学机械化、计算自动化是通过计算实现智能是一个代表特征,随后计算智能拓展到了诸如逻辑、推理、感知、学习等智能能力,但在认知、想定等更高级智能上遇到了困难。

在数字化时代,在互联网上传输的是信息流,是算力对数据进行粗加工后的结构化抽象;在智能时代,在互联网上传输的是智能流,是算力对数据进行深度加工与精炼后的模型化抽象,是数据的百炼成钢,智能算法就是加工方法、加工流程、加工工艺。

图4:智能时代的互联网

图4是我们理解的智能时代的互联网,从中可以看出算力也就是信息处理能力成了普及性需求。互联网的最底层是数据通信网,5G/光纤/星网使得数据可以更广泛共享;上一层是互联网体系结构,IP网在这一层;再往上的一层是实现信息全球共享的万维网(WWW),在这一层再平行地实现一个存储与处理共享(包含处理三要素算力、算法与数据对象)的算力网(WWC);最上面的应用层有消费互联网和产业互联网,其中消费互联网的核心是浏览器和几个超级App,产业互联网的核心是什么还不明确,可能是算力编排器和元宇宙等。消费互联网实现了百业信息上网,产业互联网要实现千行模型上网。过去的信息技术侧重于赋能消费过程,未来的信息技术更侧重于赋能生产过程,我国跟发达国家相比,落后的也是生产过程的信息化。

4、算力网的演变

图5:算力网1.0:网格计算

图6:算力网2.0:云计算

图7:算力网3.0:效用计算

图5-7展示了算力网的演变过程。算力网1.0是网格计算,核心是三个关键词:超算中心、数据网络、网格门户。算力站是超算中心,连接网络是数据网络,消费端用的是网格门户(Portal),国内最典型的企业是并行科技。算力网2.0是云计算,算力站是数据中心,连接网络是信息网络,消费端用的是浏览器和终端,浏览器是软件,终端是硬件,国内典型的企业是阿里云。算力网3.0是什么还没有形成共识,有的专家说天空计算(skycomputing),有的专家说效用计算(utilitycomputing),算力站是高通量中心,中间的运营商是算力网络,消费端应该出现算器和物端,通用算器目前还没有做出来,通用物端也还没有成形。算力网3.0的目标是OneComputerasService,即全部算力看起来是一台大电脑,屏蔽各种差异性;消费端要用Service的方式去消费算力,要有算力的资源供给商、运营商、增值服务商这些业态;国内典型的企业还没有出现,很多企业在向这个方向努力。

5、第三代算力网的核心技术创新

6、信息高铁试验场

在信息基础设施层面构建新技术体系,需要建设试验场进行中试。当前,企业、新型研发机构都在策划、建设各种各样的试验场,计算所2020年开始在南京建设自己的信息高铁试验场。

图8:当前算力网试验场的进展

图8是目前算力网试验场的进展情况。从算力站的类型来说,大致分五类:超算是要算的快,指标看Flops,曙光公司的超算中心属于第一类,在试验超算算力网;高通量是要算的多,指标看Flows,睿芯公司的高通量中心属于第二类,在试验高通量算力网;智能超算是要AI算的快,指标看OPS,鹏城云脑、寒武纪的智能超算中心属于第三类,华为与鹏城实验室在试验智能超算算力网;大数据是要BD算的快,指标看处理的Bytes,现在国家发改委的国家大数据枢纽属于第四类,正在实施的东数西算工程中很多项目在试验大数据算力网;通用数据中心是要算的省,指标看单位任务花费的¥,阿里云、腾讯云、华为云、天翼云等公有云都属于第五类,中国电信等电信运营商倡导的算网融合在试验异地同属多云算力网。试验场实际上也是混合多种类型不同的算力站的。

图9:全球算力网和算力网雏形对比

信息高铁试验场的目标是试验全球算力互联网,即在全球范围内实现一个算力大电脑。和算力网雏形有什么不同?重点看一下算力类型、商业模式和编程模式三方面,如图9。从算力类型来看,传统算力站主要是CPU、GPU两种通用算力,信息高铁试验场要有DPU高通量算力、NPU智能算力、DCU智能超算。从商业模式来看,传统模式是帝国制,即大企业垄断,用户被锁定,迁移难度很大;信息高铁试验场要有互联网模式的统一算力资源,通过算力并网器和算力计量表,算力资源供给方可以自由地选择算力运营商,算力消费方可以自由地选择算力站,算力的供应商、运营商、增值服务商、最终用户可以在算力交易平台上自由地进行交易。从编程模式来看,传统算力网的核心是Java、信息浏览器、超级APP,信息高铁试验场要有新的编程模式,如JVM+KVM+CVM屏蔽掉差异性,多种算力编排器,以及元宇宙、OneITLab等大量消耗算力的超级APP。

三、计算技术体系的新结构

包含C体系、信息高铁体系在内,计算技术体系可归纳为以下新结构:

第1层是第五范式建模方法:计算技术的根本目标之一是对物理空间、社会空间的规律进行数字模拟(simulation),科学研究第三范式的本质是数值分析建模方法,科学研究第四范式的本质是数据分析建模方法,它们只能对简单系统进行数字建模,而建模对象如多尺度物理、权力运行、疾病的分子机理、农作物生长、社会舆论、军事对抗过程、工业生产流程等属于复杂系统,其数字建模需要第五范式,即智能科学建模方法,包括引入AI方法处理物理模型精确度不够的地方,引入光计算、超导计算、量子计算支撑高维组合优化问题(NP-hard)的近似求解,引入OODA智能流支撑计算-试验在数字物理空间的迭代法建模。

第2层是大数据与AI算法的云化:就是大数据分析引擎、智能算法、智能模型的云化与基础设施化,以及智能算法的安全。

第3层是信息高铁算力网:就是全球一台算力大电脑。

第4层是智能计算机:包括智能超算与边缘智能计算机,牵引性指标是OODA-Loops。

第5层是计算系统安全增强技术:就是在处理器、操作系统、编程语言、存储系统、机群、云计算系统等各层都要有可验证、可构造的安全增强技术,形成新的系统内安全防护体系。

第6层是C体系处理器:就是面向处理器生态可控的开源开放、敏捷设计的技术体系,是处理器芯片全国重点实验室的主要任务。

第7层是集成芯片制造方法:芯片设计与制造方法从以前的堆叠法变为构造法,包括复杂芯片分而治之设计方法、芯粒集成制造方法、芯片3D集成方法等。

四、总结

信息技术要向5G、高铁、北斗学习,努力建立高水平自立自强的计算技术新体系。展望2035年,最大的学术挑战是围绕系统熵建立起处理系统中不确定性的理论与方法,最大的工程技术挑战是发展出通用Z级计算的新技术,最大的应用技术挑战是实现算力互联网、数据对象互联网、算法模型互联网相互融合的新一代信息基础设施,将我国人均信息赋能的效率提高一个数量级。

(根据孙凝晖院士在2022年计算所春季战略规划会上的报告整理)

THE END
1.为什么需要计算机网络体系结构mb6059652fef3b1的技术博客随着信息技术的飞速发展,计算机网络已成为现代社会的基石,而计算机网络体系结构则是支撑网络运行的关键。那么,为什么我们需要计算机网络体系结构呢? 一、实现网络互联与互通 计算机网络体系结构的主要作用是实现网络互联与互通。通过定义一系列的标准和规范,使得各种设备和系统都可以互相通信和交换信息。这样,不仅可以实现不同https://blog.51cto.com/u_15143048/8614138
2.网络体系结构为什么要分层网络编辑分层使得网络体系结构标准化、灵活扩展,便于模块化管理和维护。每层负责特定功能,降低复杂性,提高兼容性https://www.bkw.cn/wlbj/ask/3821467.html
3.网络体系结构为什么要采用分层次的结构?试举出一些与分层体系结构网络体系结构采用分层次的结构是为了提高网络的可靠性、可扩展性和可维护性。分层结构将网络分为多个层次,每个层次都有特定的功能和协议,层与层之间通过标准接口进行通信,这样可以使得网络的设计更加模块化,易于维护和升级。 类似的日常生活例子包括:厨房中的烹饪工具和材料分为不同的层次,每个层次都有特定的功能,如https://wenku.csdn.net/answer/8e20c30b8a574952b641db722a7090ba
4.网络体系结构为什么要采用分层次的结构?试举出一些与分层体系结构解答一 举报 1、便于管理与实现;2、便于标准化.日常生活中如一个单位的行政管理体系也是这样,有许多处,每个处下面又有许多科. 解析看不懂?免费查看同类题视频解析查看解答 相似问题 试举出一些于分层体系结构的思想相似的日常生活 什么是计算机网络的体系结构?为什么要采用分层次的结构? 什么是分层网络体系结构?分https://www.zybang.com/question/fc5600dd480ae4c11ecdf14f81eb78c0.html
5.计算机网络1总而言之,计算机网络发展的第二阶段所取得的成果对推动网络技术的成熟和应用极其重要,所研究的网络体系结构与网络协议的理论成果为以后网络理论的发展奠定了坚实的基础,很多网络系统经过适当修改与充实后至今仍在广泛使用。目前国际上应用广泛的 Internet 就是在 ARPANET 的基础上发展起来的。但是,20 世纪 70 年代后期https://www.jianshu.com/p/ed503f8f074c
6.IPv9到底是什么?为什么专家团队花二十多年研究它?而目前所有的热点区块链应用网络体系均是依赖IPv4和IPv6的基础网络架构。 (二)IPv9可以做什么 IPv9是大地址,可以组成深层次网络结构。IPv9的数字地址具有面向对象特征,不定长定义分配地址,既可独立成为网络接口地址,又可独立成为网络标识符号,组合可设计成为接口地址+标识符号,加密可生成私钥和公钥的加密地址。在IP层面https://net.it168.com/a2018/0802/5001/000005001609.shtml?1
7.计算机专业应用实习报告(通用10篇)1、复习、巩固计算机网络的基础知识そ一步加深对网络体系结构的理解和掌握; 2、通过网络工程实践将课本上的理论知识和实际有机的结合起来,锻炼自己分析解决实际问题的能力,提高自己的适应实际实践编程的能力; 3、培养自己在项目开发中团队合作精神、创新意识及能力; https://www.ruiwen.com/shixibaogao/5136565.html