一文解析ChatGPT原理及技术架构算法|chatgpt是算法吗_算命

去年12月1日，OpenAI推出人工智能聊天原型ChatGPT，再次赚足眼球，为AI界引发了类似AIGC让艺术家失业的大讨论。ChatGPT是一种专注于对话生成的语言模型。它能够根据用户的文本输入，产生相应的智能回答。这个回答可以是简短的词语，也可以是长篇大论。其中GPT是GenerativePre-trainedTransformer（生成型预训练变换模型）的缩写。通过学习大量现成文本和对话集合（例如Wiki），ChatGPT能够像人类那样即时对话，流畅的回答各种问题。（当然回答速度比人还是慢一些）无论是英文还是其他语言（例如中文、韩语等），从回答历史问题，到写故事，甚至是撰写商业计划书和行业分析，“几乎”无所不能。甚至有程序员贴出了ChatGPT进行程序修改的对话。ChatGPT和AIGC的联合使用ChatGPT也可以与其他AIGC模型联合使用，获得更加炫酷实用的功能。例如上面通过对话生成客厅设计图。这极大加强了AI应用与客户对话的能力，使我们看到了AI大规模落地的曙光。

一、ChatGPT的传承与特点

▌1.1OpenAI家族

GPT家族主要模型对比

▌1.2ChatGPT的主要特点

ChatGPT是基于GPT-3.5（GenerativePre-trainedTransformer3.5）架构开发的对话AI模型，是InstructGPT的兄弟模型。ChatGPT很可能是OpenAI在GPT-4正式推出之前的演练，或用于收集大量对话数据。

二、ChatGPT/GPT的原理

▌2.1NLP

NLP/NLU领域已知局限包括对重复文本、对高度专业的主题的误解，以及对上下文短语的误解。对于人类或AI，通常需接受多年的训练才能正常对话。NLP类模型不仅要理解单词的含义，还要理解如何造句和给出上下文有意义的回答，甚至使用合适的俚语和专业词汇。

NLP技术的应用领域本质上，作为ChatGPT基础的GPT-3或GPT-3.5是一个超大的统计语言模型或顺序文本预测模型。

▌2.2GPTv.s.BERT

BERT与GPT的技术架构（图中En为输入的每个字，Tn为输出回答的每个字）

三、ChatGPT的技术架构

▌3.1GPT家族的演进

说到ChatGPT，就不得不提到GPT家族。ChatGPT之前有几个知名的兄弟，包括GPT-1、GPT-2和GPT-3。这几个兄弟一个比一个个头大，ChatGPT与GPT-3更为相近。

ChatGPT与GPT1-3的技术对比GPT家族与BERT模型都是知名的NLP模型，都基于Transformer技术。GPT-1只有12个Transformer层，而到了GPT-3，则增加到96层。

▌3.2人类反馈强化学习

InstructGPT/GPT3.5（ChatGPT的前身）与GPT-3的主要区别在于，新加入了被称为RLHF（ReinforcementLearningfromHumanFeedback，人类反馈强化学习）。这一训练范式增强了人类对模型输出结果的调节，并且对结果进行了更具理解性的排序。在InstructGPT中，以下是“goodnessofsentences”的评价标准。

真实性：是虚假信息还是误导性信息？

无害性：它是否对人或环境造成身体或精神上的伤害？

有用性：它是否解决了用户的任务？

▌3.3TAMER框架

这里不得不提到TAMER（TraininganAgentManuallyviaEvaluativeReinforcement，评估式强化人工训练代理）这个框架。该框架将人类标记者引入到Agents的学习循环中，可以通过人类向Agents提供奖励反馈（即指导Agents进行训练），从而快速达到训练任务目标。引入人类标记者的主要目的是加快训练速度。尽管强化学习技术在很多领域有突出表现，但是仍然存在着许多不足，例如训练收敛速度慢，训练成本高等特点。特别是现实世界中，许多任务的探索成本或数据获取成本很高。如何加快训练效率，是如今强化学习任务待解决的重要问题之一。而TAMER则可以将人类标记者的知识，以奖励信反馈的形式训练Agent，加快其快速收敛。TAMER不需要标记者具有专业知识或编程技术，语料成本更低。通过TAMER+RL（强化学习），借助人类标记者的反馈，能够增强从马尔可夫决策过程(MDP)奖励进行强化学习(RL)的过程。

TAMER架构在强化学习中的应用具体实现上，人类标记者扮演对话的用户和人工智能助手，提供对话样本，让模型生成一些回复，然后标记者会对回复选项打分排名，将更好的结果反馈回模型中。Agents同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统，通过奖励策略对模型进行微调并持续迭代。在此基础上，ChatGPT可以比GPT-3更好的理解和完成人类语言或指令，模仿人类，提供连贯的有逻辑的文本信息的能力。

▌3.4ChatGPT的训练

ChatGPT的训练过程分为以下三个阶段：第一阶段：训练监督策略模型GPT3.5本身很难理解人类不同类型指令中蕴含的不同意图，也很难判断生成内容是否是高质量的结果。为了让GPT3.5初步具备理解指令的意图，首先会在数据集中随机抽取问题，由人类标注人员，给出高质量答案，然后用这些人工标注好的数据来微调GPT-3.5模型（获得SFT模型,SupervisedFine-Tuning）。此时的SFT模型在遵循指令/对话方面已经优于GPT-3，但不一定符合人类偏好。

四、ChatGPT的局限

五、ChatGPT的未来改进方向

▌5.1减少人类反馈的RLAIF

2020年底，OpenAI前研究副总裁DarioAmodei带着10名员工创办了一个人工智能公司Anthropic。Anthropic的创始团队成员，大多为OpenAI的早期及核心员工，参与过OpenAI的GPT-3、多模态神经元、人类偏好的强化学习等。2022年12月，Anthropic再次发表论文《ConstitutionalAI:HarmlessnessfromAIFeedback》介绍人工智能模型Claude。（arxiv.org/pdf/2212.0807）

CAI模型训练过程Claude和ChatGPT都依赖于强化学习(RL)来训练偏好（preference）模型。CAI（ConstitutionalAI）也是建立在RLHF的基础之上，不同之处在于，CAI的排序过程使用模型（而非人类）对所有生成的输出结果提供一个初始排序结果。CAI用人工智能反馈来代替人类对表达无害性的偏好，即RLAIF，人工智能根据一套constitution原则来评价回复内容。

▌5.2补足数理短板

ChatGPT虽然对话能力强，但是在数理计算对话中容易出现一本正经胡说八道的情况。计算机学家StephenWolfram为这一问题提出了解决方案。StephenWolfram创造了的Wolfram语言和计算知识搜索引擎Wolfram|Alpha，其后台通过Mathematica实现。

ChatGPT与Wolfram|Alpha结合处理梳理问题在这一结合体系中，ChatGPT可以像人类使用Wolfram|Alpha一样，与Wolfram|Alpha“对话”，Wolfram|Alpha则会用其符号翻译能力将从ChatGPT获得的自然语言表达“翻译”为对应的符号化计算语言。在过去，学术界在ChatGPT使用的这类“统计方法”和Wolfram|Alpha的“符号方法”上一直存在路线分歧。但如今ChatGPT和Wolfram|Alpha的互补，给NLP领域提供了更上一层楼的可能。ChatGPT不必生成这样的代码，只需生成常规自然语言，然后使用Wolfram|Alpha翻译成精确的WolframLanguage，再由底层的Mathematica进行计算。

▌5.3ChatGPT的小型化

虽然ChatGPT很强大，但其模型大小和使用成本也让很多人望而却步。有三类模型压缩（modelcompression）可以降低模型的大小和成本。第一种方法是量化（quantization），即降低单个权重的数值表示的精度。比如Tansformer从FP32降到INT8对其精度影响不大。第二种模型压缩方法是剪枝（pruning），即删除网络元素，包括从单个权重（非结构化剪枝）到更高粒度的组件如权重矩阵的通道。这种方法在视觉和较小规模的语言模型中有效。第三种模型压缩方法是稀疏化。例如奥地利科学技术研究所(ISTA)提出的SparseGPT（arxiv.org/pdf/2301.0077）可以将GPT系列模型单次剪枝到50%的稀疏性，而无需任何重新训练。对GPT-175B模型，只需要使用单个GPU在几个小时内就能实现这种剪枝。

SparseGPT压缩流程

六、ChatGPT的产业未来与投资机会

▌6.1AIGC

说到ChaGPT不得不提AIGC。AIGC即利用人工智能技术来生成内容。与此前Web1.0、Web2.0时代的UGC（用户生产内容）和PGC（专业生产内容）相比，代表人工智能构思内容的AIGC，是新一轮内容生产方式变革，而且AIGC内容在Web3.0时代也将出现指数级增长。ChatGPT模型的出现对于文字/语音模态的AIGC应用具有重要意义，会对AI产业上下游产生重大影响。

▌6.2受益场景

大模型呈爆发态势（更多的参数/更大的算力芯片需求）随着算法技术和算力技术的不断进步，ChatGPT也会进一步走向更先进功能更强的版本，在越来越多的领域进行应用，为人类生成更多更美好的对话和内容。最后，作者问存算一体技术在ChatGPT领域的地位（作者本人目前在重点推进存算一体芯片的产品落地），ChatGPT想了想，大胆的预言存算一体技术将在ChatGPT芯片中占据主导地位。（深得我心）

参考文献：

ChatGPT:OptimizingLanguageModelsforDialogueChatGPT:OptimizingLanguageModelsforDialogue

GPT论文：LanguageModelsareFew-ShotLearnersLanguageModelsareFew-ShotLearners

InstructGPT论文：TraininglanguagemodelstofollowinstructionswithhumanfeedbackTraininglanguagemodelstofollowinstructionswithhumanfeedback

huggingface解读RHLF算法：IllustratingReinforcementLearningfromHumanFeedback(RLHF)IllustratingReinforcementLearningfromHumanFeedback(RLHF)

RHLF算法论文：AugmentingReinforcementLearningwithHumanFeedbackcs.utexas.edu/~ai-lab/p

TAMER框架论文：InteractivelyShapingAgentsviaHumanReinforcementcs.utexas.edu/~bradknox

PPO算法：ProximalPolicyOptimizationAlgorithmsProximalPolicyOptimizationAlgorithms

THE END

一文解析ChatGPT原理及技术架构算法

一文解析ChatGPT原理及技术架构算法

ChatGPT的生成原理翻译神经网络

chatgpt的算法原理介绍问答

朋友聊起ChatGPT你却跟不上话题？一文揭开ChatGPT的神秘面纱！算法人工智能

ChatGPT作弊难逃，99%命中检测，堪萨斯大学全新算法，研究登Cell子刊

ChatGPT：AI应用拐点已至

中国版ChatGPT快来了吗新闻频道

爆火的ChatGPT究竟是什么？会取代人工吗？

机器学习时代的人类学习——ChatGPT引发的教育哲学反思余明锋

ChatGPT：强人工智能时代的里程碑中华读书报

如虚如实说计算机编程与ChatGPT

ChatGPT究竟是什么？ChatGPT的前世今生

通俗易懂的ChatGPT的原理简介

小白也能看懂的ChatGPT知识介绍腾讯云开发者社区

小白必知：AIGC和ChatGPT的区别子木聊出海

生成内容属于谁？会侵权泄密吗？ChatGPT法律风险详解