ChatGPT背后的创新支撑机制及对我国的启示|chatgpt用的谁的算力_算命

GPT并非自然语言处理领域的唯一知名模型。谷歌公司2018年底推出的BERT模型（BidirectionalEncoderRepresentationfromTransformers，基于变换器的双向编码器表示）一直是GPT的强大竞争对手。BERT和GPT的结构和训练方法都非常相似，在自然语言处理领域也同样取得了优秀的表现。但是，GPT被设计为兼顾自然语言理解和自然语言生成两种任务，而BERT只专注于执行自然语言理解任务。不同的任务导向，决定了两者在技术路线上的分野。

（二）量变引起质变的建模方式

决定GPT等深度学习模型能力上限的，主要是模型大小和训练数据集两个因素。模型大小就像模型的“学习潜力”，一般用参数量来衡量，参数越多、模型越大越复杂，可实现的智能上限越高。训练数据集作为“学习教材”，其具体内容的数量和质量都非常重要，会直接影响模型实现的效果。

2022年，谷歌公司在《大型语言模型的涌现能力》论文中对GPT-3的发展进行了研究，发现参数规模超过某一个临界点后，它的模型能力开始呈指数型爆发式增长，并出现了一些不可预测的“高级”能力，包括类比推理、抽象模式归纳、词义消歧、人类情感理解等137项能力，在部分任务上已经展现出了类似甚至超越人类的准确性。

（三）算力合作等业务协同模式

算力是人工智能发展不可或缺的基础设施。ChatGPT所依托的深度学习算法涉及较多的矩阵或向量运算，计算量大、计算过程复杂，模型训练和运行都需要大量高端专用芯片。随着技术进步，算力需求还在飞速提升。2018年，OpenAI发布的分析报告提出，自2012年以来，人工智能算法训练所需要使用的算力呈指数增长，每3.4个月增长一倍，即每年增长10倍。

为了解决算力问题，OpenAI和全球数字巨头微软围绕云计算业务进行了合作。从2016年10月起，微软的Azure云计算平台成为OpenAI运行深度学习大规模实验的主要云平台。微软为OpenAI提供了充足的高端专用芯片，创建了超级计算集群，并开发了多种软件，为OpenAI旗下产品的模型训练提供了全方位的云服务配套支持。在微软的算力支撑下，GPT系列模型快速迭代升级，并迅速落地转化，成为人人都能用上的应用服务。OpenAI取得技术进步后，发布的工具和服务集成在微软AzureCloud平台中，反向带动了微软云计算业务的发展，取得了极好的协同效应。

二、OpenAI的创新支撑机制

（一）高精尖人才团队

顶尖人才对于人工智能发展的作用至关重要。OpenAI联合创始人、首席执行官山姆·阿尔特曼（SamAltman）从斯坦福大学辍学后，28岁创立创业孵化公司YCombinator，29岁创立OpenAI。他坚持将通用人工智能作为OpenAI的目标，并努力寻求理想和盈利之间的平衡，是维持OpenAI运营的灵魂人物。

GPT团队中有多位全球人工智能领域顶尖专家。OpenAI联合创始人、首席科学家伊利亚·苏茨克维（IlyaSutskever）是深度学习领域的权威，带领研究团队确定了GPT的研发方向。GPT-2论文第一作者亚历克·拉德福德（AlecRadford）曾在图像生成领域提出了著名的DCGAN模型（DeepConvolutionGenerativeAdversarialNetworks，深度卷积生成对抗网络）。华人杰弗里·吴（JeffreyWu）是GPT-2和RLHF（ReinforcementLearningfromHumanFeedback，基于人类反馈的强化学习技术）两篇论文的第三作者，也是GPT-3论文作者之一，对GPT系列模型研发作出了重要贡献。

GPT的成功更是庞大顶尖人才团队集思广益和共同努力的结果。OpenAI的绝大多数成员都拥有斯坦福大学、麻省理工学院等世界顶尖名校教育背景，以及谷歌、苹果、英特尔等世界顶尖科技企业工作经历。这为GPT模型能持续迭代直至成功，奠定了重要的人才基础。GPT-3的论文署名作者多达31位，另一项关键技术RLHF的论文署名作者也达到了20位，充分体现了团队协作的力量。

（二）工程化研发流程

OpenAI在运营模式上的一个重要创新，是将算法研究与软件工程相结合，采用工程化思维推动技术迭代。OpenAI联合创始人、现任总裁格雷格·布洛克曼（GregBrockman）表示，OpenAI从成立之初，就在打造一支“能将软件工程与算法研究相结合的团队”。ChatGPT的研发流程也同样呈现出了工程化的特点。ChatGPT团队进行了业务拆分和流水线分工，组建了模型构建、模型预训练、数据整合与标注、模型微调、安全等多个小团队，不同团队各司其职、互相配合。同时，团队接受伊利亚·苏茨克维等人的统一领导，以确保软件工程的开发效率。

通过人工数据标注改进模型效果，是ChatGPT工程化研发模式的重要体现。OpenAI曾公开表示，ChatGPT在GPT-3.5模型的基础上，依托大量人工标注数据进行了微调。据美国《时代周刊》报道，2021年底，OpenAI与Sama公司签署了约20万美元的数据标注外包合同，Sama公司雇用了大批肯尼亚劳工负责筛除数据集中的攻击性言论等不恰当内容。此外，OpenAI投入了数十位具有博士学历的专业人才，负责人工给出相应指令或问题的高质量答案，再基于这些数据调整GPT-3.5模型，以确保ChatGPT能够更好地理解人类意图，输出更接近于人类语言水平的回答。这也印证了当前阶段人工智能界的普遍说法：“有多少人工，才有多少智能”。

（三）组合型融资方式

OpenAI成立之初是非营利机构。由于人工智能算法训练所需研发投入极高，非营利机构的组织形式难以获得充足研发资金，2019年3月，OpenAI进行了重组，创新设立“捐赠＋投资”的融资结构，在维持非营利机构定位的同时，创建了“有限盈利”子公司OpenAILP负责筹集资金。

OpenAILP成立后，于2019年接受了微软10亿美元的投资，2021年和2023年1月，又分别接受了微软追加的20亿美元和100亿美元投资，同时给予了微软一定股份以及部分知识产权。双方约定：如果OpenAI没有获得盈利，微软的130亿美元就算为捐赠；如果获得盈利，在OpenAI的首批投资者收回初始资本后，微软有权收回投资资本，然后继续参与分红，直到分红利润达到920亿美元上限为止；此后微软所持股份重新归还给OpenAILP。

这种“捐赠＋投资”结构，在保证融资的同时，确保了OpenAI技术团队的研究方向不受盈利目标压力和股东意愿影响。充裕的经费保障了人才招聘和研发所需的巨额开销。OpenAI人员工资和福利支出从2016年的700万美元提升至2022年的8900万美元，同期计算和数据支出从不到400万美元提升至4.16亿美元。对于微软来说，支持OpenAI也是一个重要的战略性选择，得到的投资回报是巨大的。微软旗下的必应搜索、Office办公软件、云计算业务都整合了OpenAI的技术，获得了更大的市场份额和盈利空间，还享有收回投资和未来分红的可能性。

三、启示与建议

首先，要紧跟全球人工智能技术发展大势，加速推动关键核心技术攻关。要积极抢抓新一轮科技革命和产业革命战略机遇，充分认识技术发展自身规律，发挥新型举国体制作用，依托重点高校、科研机构和创新型企业，加大对人工智能基础性研究、长周期研究、重大疑难问题研究的综合支持力度。鼓励企业参与科技顶层设计和重大决策，对未来技术方向开展更多前瞻性的预研预判。

其次，要创新支持前沿技术发展的体制机制，鼓励有条件的新型研发机构创新组织架构和融资模式。加大对企业成为科技创新主体的支持，创造稳定政策环境，鼓励企业充分利用广阔的国内市场空间和成熟的商业应用场景，形成产业“飞轮效应”。加强核心技术领域人才培养教育，提高高精尖人才福利待遇，优化国际高端人才引进和服务机制，吸引更多人才回国发展。探索首席科学家负责制，赋予科研人员更大的技术路线决定权和经费使用自主权。

再次，要持续优化国内互联网基础设施，优化国内算力产业发展的总体布局。推动全国算力规模化集约化发展，布局算力枢纽和数据中心集群，支持“东数西算”工程建设。提高算力绿色低碳水平，降低用电价格和碳排放成本。支持创新合作模式和合作机制，推动网络、算力、数据等各方面资源协同。

最后，要建设开放的国际技术合作生态，鼓励开源技术社群社区发展。积极为国内科研人员开展跨国、跨机构的交流创造便利条件。支持国内高校、科研机构、企业联合国外机构开展研发合作，积极引进国际先进技术和产品。支持企业以市场化方式对接国际先进资源，持续优化跨境投资布局，支持我国具备相对优势的人工智能技术和产品走出去。

THE END

ChatGPT背后的创新支撑机制及对我国的启示

解密ChatGPT算力芯片技术

国家间的算力战争，为什么我们还没造出ChatGPT？gpu英伟达人工智能产业链人士

芯科技，解密ChatGPT畅聊之算力芯片

算一笔细账，ChatGPT文心一言这类大模型到底要消耗多少GPU？澎湃号·湃客澎湃新闻

你知道为什么在用ChatGPT的时候，是GPU提供算力而不是CPU

ChatGPT的根基：算力基础决定上层应用

关于ChatGPT的五个最重要问题

人人都能懂的ChatGPT解读腾讯云开发者社区

深度拆解AI算力模型：ChatGPT的核心壁垒是什么？

奇点来临：ChatGPT时代的机遇与挑战

ChatGPT之思：如何应用？何以规制？——“新一代人工智能技术ChatGPT的应用与规制”笔谈

ChatGPT两月排碳千吨？数据存储总提心吊胆？这场算力应用大赛或有解…

深信服安全GPT技术应用一文详解

ChatGPT背后的创新支撑机制及对我国的启示

刘庆峰：“讯飞的代码部分能力已超越ChatGPT”，大模型下一个战场在哪里？长三角