ChatGPT背后的创新支撑机制及对我国的启示

GPT并非自然语言处理领域的唯一知名模型。谷歌公司2018年底推出的BERT模型(BidirectionalEncoderRepresentationfromTransformers,基于变换器的双向编码器表示)一直是GPT的强大竞争对手。BERT和GPT的结构和训练方法都非常相似,在自然语言处理领域也同样取得了优秀的表现。但是,GPT被设计为兼顾自然语言理解和自然语言生成两种任务,而BERT只专注于执行自然语言理解任务。不同的任务导向,决定了两者在技术路线上的分野。

(二)量变引起质变的建模方式

决定GPT等深度学习模型能力上限的,主要是模型大小和训练数据集两个因素。模型大小就像模型的“学习潜力”,一般用参数量来衡量,参数越多、模型越大越复杂,可实现的智能上限越高。训练数据集作为“学习教材”,其具体内容的数量和质量都非常重要,会直接影响模型实现的效果。

2022年,谷歌公司在《大型语言模型的涌现能力》论文中对GPT-3的发展进行了研究,发现参数规模超过某一个临界点后,它的模型能力开始呈指数型爆发式增长,并出现了一些不可预测的“高级”能力,包括类比推理、抽象模式归纳、词义消歧、人类情感理解等137项能力,在部分任务上已经展现出了类似甚至超越人类的准确性。

(三)算力合作等业务协同模式

算力是人工智能发展不可或缺的基础设施。ChatGPT所依托的深度学习算法涉及较多的矩阵或向量运算,计算量大、计算过程复杂,模型训练和运行都需要大量高端专用芯片。随着技术进步,算力需求还在飞速提升。2018年,OpenAI发布的分析报告提出,自2012年以来,人工智能算法训练所需要使用的算力呈指数增长,每3.4个月增长一倍,即每年增长10倍。

为了解决算力问题,OpenAI和全球数字巨头微软围绕云计算业务进行了合作。从2016年10月起,微软的Azure云计算平台成为OpenAI运行深度学习大规模实验的主要云平台。微软为OpenAI提供了充足的高端专用芯片,创建了超级计算集群,并开发了多种软件,为OpenAI旗下产品的模型训练提供了全方位的云服务配套支持。在微软的算力支撑下,GPT系列模型快速迭代升级,并迅速落地转化,成为人人都能用上的应用服务。OpenAI取得技术进步后,发布的工具和服务集成在微软AzureCloud平台中,反向带动了微软云计算业务的发展,取得了极好的协同效应。

二、OpenAI的创新支撑机制

(一)高精尖人才团队

顶尖人才对于人工智能发展的作用至关重要。OpenAI联合创始人、首席执行官山姆·阿尔特曼(SamAltman)从斯坦福大学辍学后,28岁创立创业孵化公司YCombinator,29岁创立OpenAI。他坚持将通用人工智能作为OpenAI的目标,并努力寻求理想和盈利之间的平衡,是维持OpenAI运营的灵魂人物。

GPT团队中有多位全球人工智能领域顶尖专家。OpenAI联合创始人、首席科学家伊利亚·苏茨克维(IlyaSutskever)是深度学习领域的权威,带领研究团队确定了GPT的研发方向。GPT-2论文第一作者亚历克·拉德福德(AlecRadford)曾在图像生成领域提出了著名的DCGAN模型(DeepConvolutionGenerativeAdversarialNetworks,深度卷积生成对抗网络)。华人杰弗里·吴(JeffreyWu)是GPT-2和RLHF(ReinforcementLearningfromHumanFeedback,基于人类反馈的强化学习技术)两篇论文的第三作者,也是GPT-3论文作者之一,对GPT系列模型研发作出了重要贡献。

GPT的成功更是庞大顶尖人才团队集思广益和共同努力的结果。OpenAI的绝大多数成员都拥有斯坦福大学、麻省理工学院等世界顶尖名校教育背景,以及谷歌、苹果、英特尔等世界顶尖科技企业工作经历。这为GPT模型能持续迭代直至成功,奠定了重要的人才基础。GPT-3的论文署名作者多达31位,另一项关键技术RLHF的论文署名作者也达到了20位,充分体现了团队协作的力量。

(二)工程化研发流程

OpenAI在运营模式上的一个重要创新,是将算法研究与软件工程相结合,采用工程化思维推动技术迭代。OpenAI联合创始人、现任总裁格雷格·布洛克曼(GregBrockman)表示,OpenAI从成立之初,就在打造一支“能将软件工程与算法研究相结合的团队”。ChatGPT的研发流程也同样呈现出了工程化的特点。ChatGPT团队进行了业务拆分和流水线分工,组建了模型构建、模型预训练、数据整合与标注、模型微调、安全等多个小团队,不同团队各司其职、互相配合。同时,团队接受伊利亚·苏茨克维等人的统一领导,以确保软件工程的开发效率。

通过人工数据标注改进模型效果,是ChatGPT工程化研发模式的重要体现。OpenAI曾公开表示,ChatGPT在GPT-3.5模型的基础上,依托大量人工标注数据进行了微调。据美国《时代周刊》报道,2021年底,OpenAI与Sama公司签署了约20万美元的数据标注外包合同,Sama公司雇用了大批肯尼亚劳工负责筛除数据集中的攻击性言论等不恰当内容。此外,OpenAI投入了数十位具有博士学历的专业人才,负责人工给出相应指令或问题的高质量答案,再基于这些数据调整GPT-3.5模型,以确保ChatGPT能够更好地理解人类意图,输出更接近于人类语言水平的回答。这也印证了当前阶段人工智能界的普遍说法:“有多少人工,才有多少智能”。

(三)组合型融资方式

OpenAI成立之初是非营利机构。由于人工智能算法训练所需研发投入极高,非营利机构的组织形式难以获得充足研发资金,2019年3月,OpenAI进行了重组,创新设立“捐赠+投资”的融资结构,在维持非营利机构定位的同时,创建了“有限盈利”子公司OpenAILP负责筹集资金。

OpenAILP成立后,于2019年接受了微软10亿美元的投资,2021年和2023年1月,又分别接受了微软追加的20亿美元和100亿美元投资,同时给予了微软一定股份以及部分知识产权。双方约定:如果OpenAI没有获得盈利,微软的130亿美元就算为捐赠;如果获得盈利,在OpenAI的首批投资者收回初始资本后,微软有权收回投资资本,然后继续参与分红,直到分红利润达到920亿美元上限为止;此后微软所持股份重新归还给OpenAILP。

这种“捐赠+投资”结构,在保证融资的同时,确保了OpenAI技术团队的研究方向不受盈利目标压力和股东意愿影响。充裕的经费保障了人才招聘和研发所需的巨额开销。OpenAI人员工资和福利支出从2016年的700万美元提升至2022年的8900万美元,同期计算和数据支出从不到400万美元提升至4.16亿美元。对于微软来说,支持OpenAI也是一个重要的战略性选择,得到的投资回报是巨大的。微软旗下的必应搜索、Office办公软件、云计算业务都整合了OpenAI的技术,获得了更大的市场份额和盈利空间,还享有收回投资和未来分红的可能性。

三、启示与建议

首先,要紧跟全球人工智能技术发展大势,加速推动关键核心技术攻关。要积极抢抓新一轮科技革命和产业革命战略机遇,充分认识技术发展自身规律,发挥新型举国体制作用,依托重点高校、科研机构和创新型企业,加大对人工智能基础性研究、长周期研究、重大疑难问题研究的综合支持力度。鼓励企业参与科技顶层设计和重大决策,对未来技术方向开展更多前瞻性的预研预判。

其次,要创新支持前沿技术发展的体制机制,鼓励有条件的新型研发机构创新组织架构和融资模式。加大对企业成为科技创新主体的支持,创造稳定政策环境,鼓励企业充分利用广阔的国内市场空间和成熟的商业应用场景,形成产业“飞轮效应”。加强核心技术领域人才培养教育,提高高精尖人才福利待遇,优化国际高端人才引进和服务机制,吸引更多人才回国发展。探索首席科学家负责制,赋予科研人员更大的技术路线决定权和经费使用自主权。

再次,要持续优化国内互联网基础设施,优化国内算力产业发展的总体布局。推动全国算力规模化集约化发展,布局算力枢纽和数据中心集群,支持“东数西算”工程建设。提高算力绿色低碳水平,降低用电价格和碳排放成本。支持创新合作模式和合作机制,推动网络、算力、数据等各方面资源协同。

最后,要建设开放的国际技术合作生态,鼓励开源技术社群社区发展。积极为国内科研人员开展跨国、跨机构的交流创造便利条件。支持国内高校、科研机构、企业联合国外机构开展研发合作,积极引进国际先进技术和产品。支持企业以市场化方式对接国际先进资源,持续优化跨境投资布局,支持我国具备相对优势的人工智能技术和产品走出去。

THE END
1.ChatGPT价格里掩盖的算力分布秘密新程序员ChatGPT 是一个复杂的自然语言处理平台,利用先进的机器学习算法来分析和创建类似人类的文本或说话方式。它的功能非常广泛,包括文本推演、文本分类和语言翻译等。针对这类模型,合理的定价方式会是一个有意思的问题。 对此,OpenAI 给出的答案非常新颖,其 ChatGPT 平台并没有按调用次数定价,而是对数据处理进行定价,这让https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/136265725
2.CHATGPT和算力有什么关系算力对于CHATGPT的训练、模型规模和推理速度都有一定的影响。较大的算力可以提供更快、更高质量的训练http://www.hlwwhy.com/ask/6709750.html
3.从ChatGPT爆火看人工智能大势开放注册两个月用户数破亿,ChatGPT火爆的背后是人工智能算法、算力和数据的再一次融合升级。现象级的ChatGPT带动人工智能第三次浪潮的再次飞跃和各国、各企业的AI竞赛。在人工智能领域,全球目前尚未形成绝对主导的技术依赖和产业生态,我国的新型举国体制如能发挥更大的作用,将给AI的发展提供极为有力的支持。中国人工https://www.cnii.com.cn/gxxww/zgdxy/ztjj/202304/t20230420_464182.html
4.毕文轩:生成式人工智能的风险规制困境及其化解:以ChatGPT的规制为摘要:以ChatGPT为代表的生成式人工智能技术产生,在极大地提升人们工作效率的同时,也在相关领域带来了诸多法律风险。这种风险具体表现为:数据使用风险、生成内容滥用风险、算法滥用风险以及其他风险。目前我国虽然已经初步具备了有关人工智能的基本治理框架,但相关的理论以及实践仍在治理主体、治理规范设置、治理手段以及治理http://fzzfyjy.cupl.edu.cn/info/1035/15616.htm
5.一.ChatGPT只有有限的技术壁垒机器学习的核心算法是都是公开的算力是有后发优势的 每一年计算机的算力都在大量提升 只要晚几年甚至几个月就可以靠更强大的算力弥补很多东西 比如语音识别领域 小度 天猫精灵 小爱 Siri Alexa之间的差别都非常小 不能说小米和苹果在科技上已经拉平了 而是语音识别的难度已经很低了 二. ChatGPT只是一个处理自然语言的NLP模型 不可以进行预测 也https://xueqiu.com/3976999949/242252671
6.ChatGPT大模型训练数据集深度分析2024众所周知,算法、数据、算力是大模型时代的四方面重要因素。根据OpenAI 前期论文[16]和博客1介绍,ChatGPT 中数据集的规模和构建质量均高于以往的人工标注数据集。由此可见,在以 ChatGPT 为代表的大模型的训练中,数据集的收集、清洗和标注异常重要。本章将从预训练数据集以及人工标注的精调数据集两方面,详细介绍 http://www.360doc.com/content/24/0725/11/3066843_1129635578.shtml
7.2023ChatGPT人工智能新纪元.pdfChatGPT会成为科技行业的下一个颠覆者。 GPT的英文全称为GenerativePre-trainedTransformer(生成式预训 练转换器),是一种基于互联网可用数据训练的文本生成深度学习模 型。ChatGPT“脱胎”于OpenAI在2020年发布的GPT-3,任何外行都可以 使用GPT-3,在几分钟内提供示例,并获得所需的文本输出。 GPT-3刚问世时也引起了https://max.book118.com/html/2024/0112/5304213221011041.shtm
8.专题人工智能通用大模型(ChatGPT)的进展风险与应对报告PDF合集本合集集中研究大语言模型产品的研发要素和核心特征,并从语言模型准确性、数据基础、模型和算法能力、安全和隐私四个维度入手,拆分出12个细分维度,分别是语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法能力、安全和隐私。针对ChatGPT、Claude、Saghttps://www.cnblogs.com/tecdat/p/17694573.html
9.是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现但这次以ChatGPT为代表的一众大语言模型,突然突破了这个门槛,变得非常“聪明”。当然背后的原因有很多,比如自监督学习、Fine-tuning策略等等,但有一个重要的底层变化——大语言模型的“涌现”(Emergent)现象,就是说一些业界从未想象到的能力,例如基础的社会知识、上下文学习(ICL)、推理(CoT)等等,在训练参数和数据量https://36kr.com/p/2210585582301824