中国芯片产业的一次底层突围,AI芯片创企勇挑RISCV标准制定大梁

生成式AI搅动芯片三大架构生态,中国AI芯片创企首次主导底层技术突破。

作者|云鹏

编辑|漠影

过去几年生成式人工智能(GAI)的快速发展,让所有主流指令集架构迎来了一次重要更新潮。

从x86、Arm到RISC-V,都在制定面向矩阵(Matrix)指令集方向的扩展,因为GAI应用的大部分典型负载的核心运算都需要使用矩阵计算。

2021年,Arm宣布在ARMv9-A架构中引入ScalableMatrixExtension(SME)指令集扩展;2023年初,英特尔正式推出了第4代英特尔至强可扩展处理器,集成了AdvancedMatrixExtensions(AMX)指令集。

就在最近,希姆计算在RISC-V美国峰会上发布了其RISC-V矩阵扩展开源项目的最新0.5版本,行业内率先支持了向量+矩阵的实现。

这家年轻的中国创企也成为首家向全球社区提交完整RISC-V矩阵指令集及其支持工具的公司。这一举措无疑会推动RISC-V矩阵指令集国际标准的快速形成,提高AI应用的兼容性、降低软件开发适配成本,推动整个RISC-V生态系统的发展。

对此,RISC-V国际基金会首席执行官CalistaRedmond给予了高度评价,她说到:“看到像希姆计算这样的创新项目积极采用和支持了RISC-V的新特性,真是令人鼓舞。矩阵指令集扩展代表了RISC-V生态系统向前迈出了重要一步,能够在特定应用场景中显著提升性能。我们对希姆计算团队的努力表示感谢,这对整个社区来说是一个巨大的胜利。”

中国电子工业标准化技术协会RISC-V工作委员会技术委员会主任、国家工业信息安全发展研究中心总工程师周平说到:“非常高兴看到作为RISC-V工委会副理事长单位的希姆计算,在推动Matrix国际标准方面所做的贡献,特别是在开源SCOOP项目上的努力令人印象深刻。希姆计算不仅展示了卓越的技术能力,还体现了开放合作的精神,这对于促进RISC-V在AI领域指令集扩展的发展具有重要意义。我们期待希姆计算继续在工委会、在国际社区积极发挥作用和协作精神,为行业带来更多的创新与进步。

AI新时代,中国芯片企业正集体一步一步走到制定国际标准的行业领导者行列中。

01.

生成式AI掀起矩阵计算革命,

RISC-V或成做AI最佳选择,标准统一是关键

进入生成式AI时代,RISC-V很可能会成为做AI的最佳指令集架构。

首先,正如前文所提到的,RISC-V可以凭借开源的模块化设计去赋能开发者,让AI芯片可以针对不同负载做加速,同时兼顾良好的可编程性和通用性。

面对生成式AI带来的需求、场景爆发,这样的特性显然是非常关键的。

此外,在AI新时代,基于RISC-V的开源方案可以最大程度保证国家层面对数据安全的掌控,还一定程度上打破既有的行业垄断态势,同时还能兼顾产业生态的融合,可以说是商业模式潜力最大化的解决方案。

明确了RISC-V的方向,如何让RISC-V可以更好地支持AI应用?标准的统一就成为了接下来的重中之重。

一旦矩阵扩展指令标准确定下来,全球RISC-V生态中的开发者都可以用一样的矩阵指令来做自己的芯片,这样软件应用层面就会有更多的融合机会,应用也能实现真正的通用性,就如同基于安卓系统的应用生态。

基于这一统一标准,各类产品都将快速生长,工具连、基础软件也将逐渐完善,这对于RISC-V在应用层面与x86和Arm生态竞争十分关键。

从生态角度上来说,制定好这样一套全球范围内都可以接受的、基于AI方向的矩阵扩展指令集标准,意义非常重大。

RISC-V的优势在于开源,但劣势也在于此:如果指令集不统一、“各自为战”、就会有碎片化的问题。

而国内AI芯片创企希姆计算,正成为其中跑的最快的一个,成为这一领域中中国芯片企业的代表,在国际行业标准的制定方面将话语权掌握在了自己手里。

02.

从芯片指令集创新到产业化落地,

希姆计算打通RISC-VAI应用全链条

正如前文所说,新标准的统一成为RISC-V生态在AI新时代最需要解决的问题,也成为全球科技巨头竞争的焦点。希姆计算这次在标准制定过程中的亮眼表现,赢得了国际基金会和业界的广泛认可。

根据官方信息,目前希姆计算的RISC-V矩阵扩展开源项目已升级至0.5版本,支持了向量+矩阵的实现。

具体来看,最新的RISC-V矩阵指令集采用了Tile-based的矩阵乘法架构设计,在原有基础上进一步完善了编程模型和类型支持,同时提供了基本版32位指令编码。

此外,通过参数化寄存器架构和模块化类型系统,新的RISC-V矩阵指令集能够适应从边缘到云端的各种应用场景。

值得一提的是,为了进一步推动标准化和商业实施,希姆计算还更新了一系列工具,包括基于LLVM的编译器、基于Spike的模拟器、基于GDB的调试器,以及基于SCOOP(StreamComputingOut-of-OrderProcessor)平台的开源核心实现,其包含对RVV和RVMatrix的支持。

站在今天的0.5版本回顾过去三年,希姆计算可以说实现了“从量变到质变”的积累。

从2022年9月RISC-V矩阵ISA规范0.1版本完成、首次向RISC-V国际基金会提交开源提案和支持工具,到2023年与达摩院建立了协商机制、共同探索RISC-V矩阵指令集。

用希姆计算执行副总裁陈炜博士的话来说,指令集的设计、功能的完善补充,是一个不断的学习和演进的过程,逐渐从非标到标准化,与国际上达成的共识相一致。

值得一提的是,希姆计算的独到优势之处在于,其不光完成了指令集的开发工作,还进一步实现了产业化,也就是对大模型的适配以及应用的落地。

就在本月早些时候,RISC-V国际基金会正式刊发的《希姆计算基于RISC-V计算能力和大型语言模型(LLMs)提供智能社区服务》一文,基于自主研发的RISC-V芯片和推理加速卡STCP920,希姆计算给LLM应用创建了一个集成RISC-V硬件和软件的生态系统。

这个生态系统包括一个智能计算云平台、行业LLMs、数据治理平台和一个智能代理开发平台。基于这套系统,希姆计算为广州某社区定制开发了一个便捷的社区服务助手。据称该助手可以提供37类、超2000项服务,社区服务咨询的准确性从原来的30%提高到了现在的95%以上。

在AI推理性能方面,STCP920AI加速卡已经经过国内头部互联网厂商50多个模型测试,平均下来,希姆计算的12nm板卡推理性能是英伟达7nmA10的108%,可以说是兼顾通用性和高性能的解决方案,也是全球第一个量产的基于RISC-V的AI推理卡。

尤为重要的是,希姆计算采用的12nm工艺节点可以很好地规避制程受限的问题,无论是TSMC南京工厂还是中芯国际都可以支持这一工艺节点。

03.

将底层技术标准制定握在自己手里,

中国科技产业或实现历史性突破

在完成自身技术和产品体系化、产业化的基础上,希姆计算进一步积极推动RISC-V行业新标准制定的举措,给全球芯片产业各方带来了重要价值,对中国科技产业发展也有着历史性意义。

此外,对于在“大算力”领域做AI加速器的公司来说,指令集标准的完善对软件生态和应用的建设都非常有帮助。

今天,从数据中心到车载、机器人、AIPC、AI手机、AIoT,不同场景都有不同的公司在聚焦,如果能够在芯片指令集架构层面形成统一,各家的软件生态就可以更好的融合。

千变万化的应用都可以追溯到同一个基础指令集,将非常有助于整个产业的蓬勃发展。

除了对全球芯片产业的重要推动作用,0.5版本的发布对中国科技产业在全球市场掌握更多话语权也有着重要意义。

0.5版本的发布,意味着中国公司为国际社区作出了重要贡献,并且在关键的标准制定层面跑在了前面。

正如希姆计算CEO梅迪所说,如果中国企业能先行一步,成为标准的主要制定者和推动者之一,就可以让国内的软件和应用生态能够更多的被国际接受、一起融合发展。

这也是为什么要有更多中国公司来做这件事,去为标准的统一做贡献,去尽可能多的争夺话语权。

今天,放眼芯片、AI乃至整个科技产业,受到地缘政治的影响,隶属于一个国家的一套技术路线往往都难以推广至全球范围内被积极采用。

但同时产业又呼吁生态的融合发展,因此唯一的解决方式就是采用一套不隶属于任何国家的开源技术路线,这也是RISC-V方案的突出优势之一。

在当今国家数据资产治理和转型的关键发展阶段,一个开放、稳定、安全、融和、去中心化以及保持和国外接轨的算力底层技术路线显得尤为重要。

纵观信息时代全球科技产业的发展,中国在绝大部分重要的底层技术路线上,都没能将标准化工作掌握在自己手里,要做到底层技术话语权的掌控,是非常难的一件事。

而今天希姆计算推动RISC-V在AI方向上的一系列标准制定工作,显然是有重大意义的,也必然会在未来展现出巨大价值。

04.

结语:在芯片产业“种树”,

希姆计算瞄准的是AI更大的未来

从摸着石头过河到如今产业化落地,希姆计算无疑是在全球RISC-V生态建设中走的最早的一批中国企业。他们从幕后走到台前,从摸索追赶到推动矩阵指令集标准的完善,领跑细分赛道。

用梅迪的话来说,希姆计算希望把自己的技术路线、方案等沉淀下来,争取让行业中其他公司可以跟随,从而实现对行业的引领。

从底层做起、扎扎实实,虽然初期挑战重重,但完成后却能够迸发出巨大商业化潜力。

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

THE END
1.人工智能Al概念”17家细分龙头一AI芯片与硬件界的璀璨明星1.寒武四、AI应用与软件的智慧之光 1.科大讯飞:在语音识别、语音合成、自然语言处理等领域,科大讯飞可是数一数二的。它推出的智能语音助手、智能客服等应用服务,深受用户喜爱,成为了业界的标杆。 2.拓维信息:作为AI算力的主要提供商之一,拓维信息参与了众多人工智能计算中心的建设。同时,它在AI应用解决方案方面也有着卓越https://xueqiu.com/3573587937/314027890
2.中金:AI服务器产业链拆解Stability AI CEO表示,随着GPU和算力的提升,其开发的Stable Disffusion多模态大模型可能一年之内就能在智能手机上运行,未来新技术也将在更多低价的设备上进行训练,AI推动的创意快速涌现。 互联网云厂商是目前AI云端算力的主要需求方。OpenAI使用多个云计算提供商的服务来支持GPT的训练和推理,包括亚马逊AWS、谷歌云、微软https://wallstreetcn.com/articles/3685834
3.高密度ARM服务器如何引领“数智时代”发展,打通“智变质变”正计算从通用计算进入通用计算+AI计算的多样性计算时代。通用计算构建了数字经济发展的基础,AI计算将成为数字经济发展的加速器。从数字化到智能化,人工智能作为新的GPT,将使数字经济迈向新高度。 为此华为联合合作伙伴发出《迈向智能世界计算白皮书》,以下将对该白皮书进行解读,一起了解算力发展六大趋势。 https://blog.51cto.com/u_15497017/6033779
4.AI服务器算力服务大模型微调与定制AI人工智能+XR元宇宙 综合解决方案提供商 专注GPU集群计算网络、存储网络最佳实践设计 擅长深度学习训练模型部署与参数调优 提供HPC/GPU/元宇宙/英伟达解决方案销售 0建设成本 按需定制 裸金属算力租赁+运维服务定制+算力集群性能调优 算力集群架构设计 以GPU服务器为核心,通过计算网络与存储网络的最佳实践设计,帮助用户实现https://www.kuanheng168.com/home_10231108_784
5.音诺恒RK3588AI人工智能主板直播机NVR边缘计算工业工控算力主板YNH-732属于多功能智能主板,采用瑞芯微RK3588八核处理器,自带6T算力NPU,搭载Android12.0/Ubuntu20.04系统(内核为Linux4.19),支持8K视频编解码,8K显示输出,支持多屏异显;丰富的高速接口(PCIe,TYPE-C,千兆以太网)。https://www.elecfans.com/p/v91272.html
6.高算力智能AI安卓方案价格,厂家,求购,什么品牌好用途: 人工智能主板,可以使最终产品达到 7*2 型号: Zysj-2288d 产量: 100000 “高算力智能AI安卓方案”详细介绍 高算力智能AI安卓方案基本介绍 高性能 : 2288D 是采用瑞芯微新一代旗舰级 RK3588 高性能 AIoT 处理器, A ndroid 12.0/Linux 等操作系统, RK3588 是采用 8nm LP 制程, 基于 Cortex-A76https://cn.made-in-china.com/gongying/zbo1986-mXeJdAwBAcWr.html
7.AI算力租赁——数字基建新抓手AI爆发导致GPU需求激增,美国限制收拢下芯片价格上行。2022年11月ChatGPT发布后, 2个月内月活用户即达1亿,令人瞩目。相比之下,iTunes、Twitter分别用了6.5和5年。ChatGPT类人工智能大模型应用爆发,导致全球对高算力GPU加速卡的需求激增,又受美国对华高科技行业逐渐严苛的限制威胁,中国科技公司纷纷大量采购英伟达芯片以https://www.panewslab.com/zh/articledetails/uf5rqrqd.html
8.AIoT3568物联网人工智能算力主板打造国产化软硬件终端AIoT解决方案 四核高性能处理器 瑞芯微RK3568,四核Cortex-A55芯片 主频最高可达2.0GHz 22nm工艺制程,搭载Android 11.0系统 性能强劲且低耗 独立NPU,AI推理能力 内置神经网络计算单元,独立NPU 支持1Tops算力 具备M.2接口支持算力棒扩展 https://www.njxwst.com/html/Androidboard/AI/394.html
9.各类带AI算力开发板/定制(mtk/海思/算能/sigmastar/amlogic/rk等MT6877(天玑900)平台5G安卓智能核心板/方案定制 XY6877 是一款基于MTK的 MT6877(联发科技天玑 900 )https://bbs.16rd.com/thread-571219-1-1.html
10.算力信创:昇腾构建高端AI计算竞争力华为利用自己的硬件能力,对外提供主板、SSD、网卡、RAID卡、Atlas模组和板卡,优先支持合作伙伴发展服务器等计算产品,通过自有硬件和生态伙伴硬件相结合的方式提供多样化的算力选择。各家伙伴都依据用户场景的差异化展开内部自研,推出自有品牌产品,加速人工智能在各行各业走深向实,共建昇腾计算产业。 https://www.eet-china.com/mp/a290097.html
11.盘点2024中国AI算力产业现状资讯动态海外制裁后,AI 芯片国产化诉求加大。主要系供应链安全和政策强制要求。 2024 年 3 月 22 日,上海市通信管理局等 11 个部门联合印发《上海市智能算力基础 设施高质量发展 “算力浦江”智算行动实施方案(2024-2025 年)》。到 2025 年,上海 市市新建智算中心国产算力芯片使用占比超过 50%,国产存储使用占比超过https://www.apetops.com/zixundongtai/185.html
12.调查AI龙头or算力“掮客”:从国内代理商批量购整机鸿博股份与若按照一期的进价标准来布置3000P算力,鸿博股份至少还需要准备3亿元~3.5亿元的资金,再去购置150台服务器。 记者注意到,李奇透露的数字和英博数科实际产生的一笔成本价格较为接近。根据鸿博股份6月20日发布的年报问询函回复公告(以下简称问询回复),2022年公司进军人工智能AI行业,并因筹建北京AI创新赋能中心首期AI算力https://wap.eastmoney.com/a/202307072773767414.html
13.立方早知道央行3052人大招聘/10家央企上市公司集体披露/中原10月16日消息,北京市经济和信息化局日前印发人工智能算力券实施方案的通知。实施方案支持软件信息服务业企业和制造业企业在工业、政务服务、医疗、金融、教育、法务、交通、文旅、科学研究、城市管理等领域进行行业人工智能大模型训练和应用。市经济和信息化局将为企业提供算力券补贴支持,努力帮助企业降低智能算力使用成本https://app.dahecube.com/nweb/pc/article.html?artid=177765?recid=6405
14.AI算力服务器项目实施方案.docx随着人工智能技术的应用场景不断扩展,AI算力服务器也将向多元化服务方向发展,满足不同行业、不同应用场景的需求。 竞争格局 1、厂商竞争 目前,全球范围内涌现出众多AI算力服务器厂商,包括传统服务器厂商、互联网巨头以及专业AI算力服务器提供商。竞争格局日趋激烈,各厂商纷纷加大研发投入,推出具有自主知识产权的AI算力服https://max.book118.com/html/2024/0324/6203112222010104.shtm
15.模型计算算力8核人工智能开源主板基于BITMAINAI计算模组IOEHM-N82主板专为比特大陆SM5模组设计,提供超高性能和低功耗特性。搭载8核A53 CPU,支持多种外设扩展,适用于人工智能应用。其VPU支持高效视频编解码,TPU提供17.6T INT8和2.2T fp32算力,适用于人脸识别、结构化算法等。主板体积小巧,接口丰富,开发环境友好,支持多种深度学习框架。 https://blog.csdn.net/liyingwang3/article/details/123043847
16.AI芯片之争没有高算力GPU,人工智能就是人工智障AI芯片,也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块。当前,AI芯片主要分为GPU 、FPGA及以TPU、VPU为代表的ASIC芯片,其中以GPU用量最大。据 IDC 数据,预计到2025年GPU仍将占据AI芯片80%市场份额。 事实上,GPU称为目前应用最广的AI芯片,是人工智能赛道GPT训练模型算力最快的AI芯http://www.fsemi.tech/cms/data_report/1366.html
17.GPU与AI算力:探索科技的强大力量!除了购买硬件,还可以考虑使用云计算服务来获取 AI 算力。许多云服务提供商提供了基于 GPU 的计算资源租赁服务,用户可以根据自己的需求选择不同配置和价格的实例。 ?GPU 作为 AI 算力的重要支撑,在人工智能的发展中起着至关重要的作用。了解不同 GPU 型号的特点和价格,以及它们在 AI 算力方面的表现,对于https://weixin.91160.com/h5/wecontent/doctorarticle/detail.html?id=541253