ChatGPT背后的创新支撑机制及对我国的启示

GPT并非自然语言处理领域的唯一知名模型。谷歌公司2018年底推出的BERT模型(BidirectionalEncoderRepresentationfromTransformers,基于变换器的双向编码器表示)一直是GPT的强大竞争对手。BERT和GPT的结构和训练方法都非常相似,在自然语言处理领域也同样取得了优秀的表现。但是,GPT被设计为兼顾自然语言理解和自然语言生成两种任务,而BERT只专注于执行自然语言理解任务。不同的任务导向,决定了两者在技术路线上的分野。

(二)量变引起质变的建模方式

决定GPT等深度学习模型能力上限的,主要是模型大小和训练数据集两个因素。模型大小就像模型的“学习潜力”,一般用参数量来衡量,参数越多、模型越大越复杂,可实现的智能上限越高。训练数据集作为“学习教材”,其具体内容的数量和质量都非常重要,会直接影响模型实现的效果。

2022年,谷歌公司在《大型语言模型的涌现能力》论文中对GPT-3的发展进行了研究,发现参数规模超过某一个临界点后,它的模型能力开始呈指数型爆发式增长,并出现了一些不可预测的“高级”能力,包括类比推理、抽象模式归纳、词义消歧、人类情感理解等137项能力,在部分任务上已经展现出了类似甚至超越人类的准确性。

(三)算力合作等业务协同模式

算力是人工智能发展不可或缺的基础设施。ChatGPT所依托的深度学习算法涉及较多的矩阵或向量运算,计算量大、计算过程复杂,模型训练和运行都需要大量高端专用芯片。随着技术进步,算力需求还在飞速提升。2018年,OpenAI发布的分析报告提出,自2012年以来,人工智能算法训练所需要使用的算力呈指数增长,每3.4个月增长一倍,即每年增长10倍。

为了解决算力问题,OpenAI和全球数字巨头微软围绕云计算业务进行了合作。从2016年10月起,微软的Azure云计算平台成为OpenAI运行深度学习大规模实验的主要云平台。微软为OpenAI提供了充足的高端专用芯片,创建了超级计算集群,并开发了多种软件,为OpenAI旗下产品的模型训练提供了全方位的云服务配套支持。在微软的算力支撑下,GPT系列模型快速迭代升级,并迅速落地转化,成为人人都能用上的应用服务。OpenAI取得技术进步后,发布的工具和服务集成在微软AzureCloud平台中,反向带动了微软云计算业务的发展,取得了极好的协同效应。

二、OpenAI的创新支撑机制

(一)高精尖人才团队

顶尖人才对于人工智能发展的作用至关重要。OpenAI联合创始人、首席执行官山姆·阿尔特曼(SamAltman)从斯坦福大学辍学后,28岁创立创业孵化公司YCombinator,29岁创立OpenAI。他坚持将通用人工智能作为OpenAI的目标,并努力寻求理想和盈利之间的平衡,是维持OpenAI运营的灵魂人物。

GPT团队中有多位全球人工智能领域顶尖专家。OpenAI联合创始人、首席科学家伊利亚·苏茨克维(IlyaSutskever)是深度学习领域的权威,带领研究团队确定了GPT的研发方向。GPT-2论文第一作者亚历克·拉德福德(AlecRadford)曾在图像生成领域提出了著名的DCGAN模型(DeepConvolutionGenerativeAdversarialNetworks,深度卷积生成对抗网络)。华人杰弗里·吴(JeffreyWu)是GPT-2和RLHF(ReinforcementLearningfromHumanFeedback,基于人类反馈的强化学习技术)两篇论文的第三作者,也是GPT-3论文作者之一,对GPT系列模型研发作出了重要贡献。

GPT的成功更是庞大顶尖人才团队集思广益和共同努力的结果。OpenAI的绝大多数成员都拥有斯坦福大学、麻省理工学院等世界顶尖名校教育背景,以及谷歌、苹果、英特尔等世界顶尖科技企业工作经历。这为GPT模型能持续迭代直至成功,奠定了重要的人才基础。GPT-3的论文署名作者多达31位,另一项关键技术RLHF的论文署名作者也达到了20位,充分体现了团队协作的力量。

(二)工程化研发流程

OpenAI在运营模式上的一个重要创新,是将算法研究与软件工程相结合,采用工程化思维推动技术迭代。OpenAI联合创始人、现任总裁格雷格·布洛克曼(GregBrockman)表示,OpenAI从成立之初,就在打造一支“能将软件工程与算法研究相结合的团队”。ChatGPT的研发流程也同样呈现出了工程化的特点。ChatGPT团队进行了业务拆分和流水线分工,组建了模型构建、模型预训练、数据整合与标注、模型微调、安全等多个小团队,不同团队各司其职、互相配合。同时,团队接受伊利亚·苏茨克维等人的统一领导,以确保软件工程的开发效率。

通过人工数据标注改进模型效果,是ChatGPT工程化研发模式的重要体现。OpenAI曾公开表示,ChatGPT在GPT-3.5模型的基础上,依托大量人工标注数据进行了微调。据美国《时代周刊》报道,2021年底,OpenAI与Sama公司签署了约20万美元的数据标注外包合同,Sama公司雇用了大批肯尼亚劳工负责筛除数据集中的攻击性言论等不恰当内容。此外,OpenAI投入了数十位具有博士学历的专业人才,负责人工给出相应指令或问题的高质量答案,再基于这些数据调整GPT-3.5模型,以确保ChatGPT能够更好地理解人类意图,输出更接近于人类语言水平的回答。这也印证了当前阶段人工智能界的普遍说法:“有多少人工,才有多少智能”。

(三)组合型融资方式

OpenAI成立之初是非营利机构。由于人工智能算法训练所需研发投入极高,非营利机构的组织形式难以获得充足研发资金,2019年3月,OpenAI进行了重组,创新设立“捐赠+投资”的融资结构,在维持非营利机构定位的同时,创建了“有限盈利”子公司OpenAILP负责筹集资金。

OpenAILP成立后,于2019年接受了微软10亿美元的投资,2021年和2023年1月,又分别接受了微软追加的20亿美元和100亿美元投资,同时给予了微软一定股份以及部分知识产权。双方约定:如果OpenAI没有获得盈利,微软的130亿美元就算为捐赠;如果获得盈利,在OpenAI的首批投资者收回初始资本后,微软有权收回投资资本,然后继续参与分红,直到分红利润达到920亿美元上限为止;此后微软所持股份重新归还给OpenAILP。

这种“捐赠+投资”结构,在保证融资的同时,确保了OpenAI技术团队的研究方向不受盈利目标压力和股东意愿影响。充裕的经费保障了人才招聘和研发所需的巨额开销。OpenAI人员工资和福利支出从2016年的700万美元提升至2022年的8900万美元,同期计算和数据支出从不到400万美元提升至4.16亿美元。对于微软来说,支持OpenAI也是一个重要的战略性选择,得到的投资回报是巨大的。微软旗下的必应搜索、Office办公软件、云计算业务都整合了OpenAI的技术,获得了更大的市场份额和盈利空间,还享有收回投资和未来分红的可能性。

三、启示与建议

首先,要紧跟全球人工智能技术发展大势,加速推动关键核心技术攻关。要积极抢抓新一轮科技革命和产业革命战略机遇,充分认识技术发展自身规律,发挥新型举国体制作用,依托重点高校、科研机构和创新型企业,加大对人工智能基础性研究、长周期研究、重大疑难问题研究的综合支持力度。鼓励企业参与科技顶层设计和重大决策,对未来技术方向开展更多前瞻性的预研预判。

其次,要创新支持前沿技术发展的体制机制,鼓励有条件的新型研发机构创新组织架构和融资模式。加大对企业成为科技创新主体的支持,创造稳定政策环境,鼓励企业充分利用广阔的国内市场空间和成熟的商业应用场景,形成产业“飞轮效应”。加强核心技术领域人才培养教育,提高高精尖人才福利待遇,优化国际高端人才引进和服务机制,吸引更多人才回国发展。探索首席科学家负责制,赋予科研人员更大的技术路线决定权和经费使用自主权。

再次,要持续优化国内互联网基础设施,优化国内算力产业发展的总体布局。推动全国算力规模化集约化发展,布局算力枢纽和数据中心集群,支持“东数西算”工程建设。提高算力绿色低碳水平,降低用电价格和碳排放成本。支持创新合作模式和合作机制,推动网络、算力、数据等各方面资源协同。

最后,要建设开放的国际技术合作生态,鼓励开源技术社群社区发展。积极为国内科研人员开展跨国、跨机构的交流创造便利条件。支持国内高校、科研机构、企业联合国外机构开展研发合作,积极引进国际先进技术和产品。支持企业以市场化方式对接国际先进资源,持续优化跨境投资布局,支持我国具备相对优势的人工智能技术和产品走出去。

THE END
1.ChatGPT价格里掩盖的算力分布秘密新程序员【导读】当前,大语言模型的商业化持续进行,本文聚焦这一变革背景下的 ChatGPT 定价机制,深入剖析其核心技术内涵。通过细致研究 ChatGPT-3.5 turbo 采用的 Decode-Only 架构,作者系统地探讨了模型在接收到输入提示并生成相应输出的过程中,如何差异化利用 GPU 算力资源,进而阐明了支撑该定价策略的独特技术原理。 https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/136265725
2.ChatGPT算力,不是问题!这篇文章都是用事实来讲道理!很客观的一次分国产算力问题解决了! 我说解决,就是解决了! 已经解决了!听懂了? 很讽刺!ChatGPT个股,由于英伟达断供浪潮,都在担心美国制裁!杀了一个多星期! 可是,同样几乎全部用英伟达的紫光股份(新华三),反而新高了! 担心美国制裁,散户疯狂抛售自己的ChatGPT个股,可是同样是美国英伟达做底层的紫光股份,机构主导的,反而新高!是https://xueqiu.com/7802423132/244215278
3.ChatGPT服务器,深度拆解1、ChatGPT需要的服务器:AI训练型服务器+AI推理型服务器 随着计算场景扩展,算力硬件也在发生变化。在传统软件架构下,主要的模式都是CS模式,服务端大多是单机处理几千个轻量请求。而在边缘计算场景下,需要数万台服务器处理上亿个重负载请求。边缘计算机本质上是用CES模式取代CS模式,当前的互联网IT架构已经从CS模式https://www.51cto.com/article/747956.html
4.从ChatGPT爆火看人工智能大势开放注册两个月用户数破亿,ChatGPT火爆的背后是人工智能算法、算力和数据的再一次融合升级。现象级的ChatGPT带动人工智能第三次浪潮的再次飞跃和各国、各企业的AI竞赛。在人工智能领域,全球目前尚未形成绝对主导的技术依赖和产业生态,我国的新型举国体制如能发挥更大的作用,将给AI的发展提供极为有力的支持。中国人工https://www.cnii.com.cn/gxxww/zgdxy/ztjj/202304/t20230420_464182.html
5.中国工业新闻网ChatGPT的背后离不开算力的支撑。算力,是人工智能三大核心要素之一,被誉为人工智能“发动机”。近年来,青岛也在积极布局,加速打造全国人工智能算力、算法开发应用高地。华为技术有限公司就与青岛频频“牵手”,以强大的资源和行业影响力,助力青岛AI发展迈向新高度。 http://www.cinn.cn/dfgy/202304/t20230410_267675.shtml
6.中国版ChatGPT能否后来居上?综合全部资讯一言以蔽之,中国不仅具有在数据、算法、算力和应用方面追赶海外AI技术的硬实力,更拥有长期为AI时代保驾护航的文化基因。或许这种科技的潜力会让我们在AI技术领域后来居上,但是这种积淀了几千年的中华智慧,才是中国版ChatGPT走向世界的终极法宝。 当沸腾的水壶在瓦特眼里勾勒出蒸汽机的雏形,有谁会意识到工业革命的车轮https://www.p5w.net/roll/complex/202311/t20231114_5844656.htm