安谋科技推出新一代“周易”X2NPU:助力建设中国智能计算生态
在同日举办的媒体会上,安谋科技还正式发布“周易”NPU软件开源计划,通过开放源码,满足客户更自主、更灵活的算法移植需求,携手合作伙伴共建国内NPU产业生态。
据安谋科技执行副总裁、产品研发负责人刘澍介绍,“周易”X2NPU第一个瞄准的是汽车市场。“安谋科技注意到,中国有强劲的汽车发展动力,中国市场汽车销量约占全球汽车销量的1/3,同时,企业在中国的客户也得到了长足的进步和发展。与此同时,中国在过去的几年中涌现出了特别多的本土智能汽车品牌,这些新势力汽车品牌也是‘周易’X2NPU所面向的重要的合作伙伴。”
汽车自动驾驶应用对人工智能的需求越来越多,不光是ADAS里面有更多的摄像头、更多的雷达,会产生更多需要处理的数据,同时里面也涵盖车内车外的各种监测、辅助的决策系统,需要更高帧率、更大算力、更多人机交互、更多安全性需求等。基于上述要求,新一代“周易”X2NPU会在这些方面带来很好的支撑。
“‘周易’X系列不仅仅适用于汽车领域,还面向边缘侧服务器类型,”刘澍进一步介绍到,“从‘周易’产品的路线图可以看到,‘周易’不光是产品在向前演进,架构也在不断发展。‘周易’X1NPU产品主要是基于的V1、V2架构,更多是用在AIoT领域,‘周易’X2NPU是我们第一款基于V3架构的NPU,算力有大幅提升,能够支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合计算,计算效率与计算密度也得到了显著提升。未来我们会推动针对新兴领域的高性能子系统开发,希望把“周易”推向更多大算力的领域,不断地发展。”
基于最新V3架构,“周易”X2NPU赋能高性能AI计算
据安谋科技产品总监杨磊介绍,“周易”X2NPU基于最新的V3架构的指令集,相比前代产品有如下的技术升级:1.支持更大的算力;2.支持更好的i-Tiling的技术方案;3.实时的任务调度;4.支持混合精度计算;5.优化的Transformer性能;6.增加了无损的权重压缩的技术;7.低功耗技术升级;8.面向手持设备的专门优化等。
“周易”X2NPU如何支持大算力的方案?据介绍,“周易”X2NPU通过多个NPU的核构成了一个Cluster(集群),实现算力成倍的提升。再通过多个Cluster构成了一个子系统这样的方案,来完成大算力的产品形态的交付。
当然,多核方案的难点在于,如何将这么多的核心的计算能力充分地发挥出来,这就涉及到任务的分发和管理。这也是整个系统中最核心的功能之一,即任务调度器,它可以同时调度多个Cluster的多个核心的功能。为此安谋科技专门做了一个硬件的加速单元——TaskSchedulingManager(TSM)来负责多核或者多个计算单元的实时任务调度。据悉,目前已经可以做到100纳秒一次任务调度,可以充分发挥硬件的计算效率。
另一方面,随着汽车和手机数据的分辨率越来越大,从720P到1080P,未来甚至会向更大的分辨率4K去演进。这个过程中不止是对算力的要求提升,对带宽的要求也是成倍地提升。安谋科技为此推出i-Tiling技术,把一个很大的图片拆成若干个小块,这样每一个tile就变得很小,小的好处是可以在芯片上,也就是芯片内部的memory缓存在内部,这样就不需要把这个数据从外面的设备中做读写操作,从而从根本上节省了对外部带宽的需求。借助i-Tiling技术,可以大幅降低系统的成本,提高系统的效率。
除此之外,杨磊还告诉笔者,“周易”X2NPU面向不同的手持设备做了专门优化,比如面向手机、平板电脑、PC市场可以提供30T的算力,对标现在业界旗舰手机的NPU解决方案。也针对手机等手持设备面向拍照类的场景做了AI去噪等优化;针对PC平板的视频会议超分和插帧等专门优化;以及针对手持设备在功耗上的优化,7nm(制程)可以实现10TOPS/W的高能效比。
安谋科技NPU研发高级总监孙锦鸿告诉笔者,“周易”X2NPU包含了“周易”Compass软件平台,把软件的各个部分都包含在里面,还包含了IP。“周易”X2NPU采用“周易”v3架构,可以从10TOPS到80TOPS,扩展成多核单Cluster,通过多Cluster可以扩展到320TOPS算力。
据悉,“周易”v3架构对比“周易”v1、v2架构更强调并行性和可扩展性。在整个v3架构的指令集中,安谋科技定义了超过1000个专门针对不同场景的指令,这些指令也是基于VLIW结构,由长指令和短指令构成,并且可以支持64bit和128bit的指令包,做到统一的指令集组合。
“在我们的运算单元里,需要很多AI固定功能的加速,我们提供了很高效的4KMAC矩阵,适用于CNN、RNN、Transformer等结构。其次我们提供了很多可重置的结构单元,以适配很多新算子,因为很多AI功能背后的模型或算子更新日新月异,这些可重置的结构单元就给我们的NPU提供了很多的可扩展性和适应性,”孙锦鸿表示,“灵活单元层面,我们做了很多针对AI标量、矢量的指令,这些指令都可以通过OpenCL实现很好的编程体验。每个基础单元可以做到1024bit/cycle的数据处理,它的数据带宽可以根据1024bit有效拓展。虽然我们团队的量化能力非常强,但也希望支持一些原生的浮点单元,让用户在不需要做太多量化的工作基础上实现较好的体验。我们也支持了矩阵浮点运算,每一个时钟可以支持128MACs的操作,是基于FP16的运算。”
携手合作伙伴建设中国智能计算生态
据悉,安谋科技生态伙伴计划从2022年7月就已经开始实行了,截止到目前已经有40家合作伙伴参与到了生态伙伴计划当中,其中包括汽车领域内的芯片提供商、tier1、tier2和算法厂商,也有AIoT、高性能计算等领域的合作伙伴。基于该计划,安谋科技通过开展产品技术交流、技术合作拓展、生态营销推广等方式,携手合作伙伴,共同推动中国智能计算生态的创新和繁荣。