一文解析ChatGPT原理及技术架构算法

去年12月1日,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。ChatGPT是一种专注于对话生成的语言模型。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。其中GPT是GenerativePre-trainedTransformer(生成型预训练变换模型)的缩写。通过学习大量现成文本和对话集合(例如Wiki),ChatGPT能够像人类那样即时对话,流畅的回答各种问题。(当然回答速度比人还是慢一些)无论是英文还是其他语言(例如中文、韩语等),从回答历史问题,到写故事,甚至是撰写商业计划书和行业分析,“几乎”无所不能。甚至有程序员贴出了ChatGPT进行程序修改的对话。ChatGPT和AIGC的联合使用ChatGPT也可以与其他AIGC模型联合使用,获得更加炫酷实用的功能。例如上面通过对话生成客厅设计图。这极大加强了AI应用与客户对话的能力,使我们看到了AI大规模落地的曙光。

一、ChatGPT的传承与特点

▌1.1OpenAI家族

GPT家族主要模型对比

▌1.2ChatGPT的主要特点

ChatGPT是基于GPT-3.5(GenerativePre-trainedTransformer3.5)架构开发的对话AI模型,是InstructGPT的兄弟模型。ChatGPT很可能是OpenAI在GPT-4正式推出之前的演练,或用于收集大量对话数据。

二、ChatGPT/GPT的原理

▌2.1NLP

NLP/NLU领域已知局限包括对重复文本、对高度专业的主题的误解,以及对上下文短语的误解。对于人类或AI,通常需接受多年的训练才能正常对话。NLP类模型不仅要理解单词的含义,还要理解如何造句和给出上下文有意义的回答,甚至使用合适的俚语和专业词汇。

NLP技术的应用领域本质上,作为ChatGPT基础的GPT-3或GPT-3.5是一个超大的统计语言模型或顺序文本预测模型。

▌2.2GPTv.s.BERT

BERT与GPT的技术架构(图中En为输入的每个字,Tn为输出回答的每个字)

三、ChatGPT的技术架构

▌3.1GPT家族的演进

说到ChatGPT,就不得不提到GPT家族。ChatGPT之前有几个知名的兄弟,包括GPT-1、GPT-2和GPT-3。这几个兄弟一个比一个个头大,ChatGPT与GPT-3更为相近。

ChatGPT与GPT1-3的技术对比GPT家族与BERT模型都是知名的NLP模型,都基于Transformer技术。GPT-1只有12个Transformer层,而到了GPT-3,则增加到96层。

▌3.2人类反馈强化学习

InstructGPT/GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于,新加入了被称为RLHF(ReinforcementLearningfromHumanFeedback,人类反馈强化学习)。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。在InstructGPT中,以下是“goodnessofsentences”的评价标准。

真实性:是虚假信息还是误导性信息?

无害性:它是否对人或环境造成身体或精神上的伤害?

有用性:它是否解决了用户的任务?

▌3.3TAMER框架

这里不得不提到TAMER(TraininganAgentManuallyviaEvaluativeReinforcement,评估式强化人工训练代理)这个框架。该框架将人类标记者引入到Agents的学习循环中,可以通过人类向Agents提供奖励反馈(即指导Agents进行训练),从而快速达到训练任务目标。引入人类标记者的主要目的是加快训练速度。尽管强化学习技术在很多领域有突出表现,但是仍然存在着许多不足,例如训练收敛速度慢,训练成本高等特点。特别是现实世界中,许多任务的探索成本或数据获取成本很高。如何加快训练效率,是如今强化学习任务待解决的重要问题之一。而TAMER则可以将人类标记者的知识,以奖励信反馈的形式训练Agent,加快其快速收敛。TAMER不需要标记者具有专业知识或编程技术,语料成本更低。通过TAMER+RL(强化学习),借助人类标记者的反馈,能够增强从马尔可夫决策过程(MDP)奖励进行强化学习(RL)的过程。

TAMER架构在强化学习中的应用具体实现上,人类标记者扮演对话的用户和人工智能助手,提供对话样本,让模型生成一些回复,然后标记者会对回复选项打分排名,将更好的结果反馈回模型中。Agents同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统,通过奖励策略对模型进行微调并持续迭代。在此基础上,ChatGPT可以比GPT-3更好的理解和完成人类语言或指令,模仿人类,提供连贯的有逻辑的文本信息的能力。

▌3.4ChatGPT的训练

ChatGPT的训练过程分为以下三个阶段:第一阶段:训练监督策略模型GPT3.5本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT3.5初步具备理解指令的意图,首先会在数据集中随机抽取问题,由人类标注人员,给出高质量答案,然后用这些人工标注好的数据来微调GPT-3.5模型(获得SFT模型,SupervisedFine-Tuning)。此时的SFT模型在遵循指令/对话方面已经优于GPT-3,但不一定符合人类偏好。

四、ChatGPT的局限

五、ChatGPT的未来改进方向

▌5.1减少人类反馈的RLAIF

2020年底,OpenAI前研究副总裁DarioAmodei带着10名员工创办了一个人工智能公司Anthropic。Anthropic的创始团队成员,大多为OpenAI的早期及核心员工,参与过OpenAI的GPT-3、多模态神经元、人类偏好的强化学习等。2022年12月,Anthropic再次发表论文《ConstitutionalAI:HarmlessnessfromAIFeedback》介绍人工智能模型Claude。(arxiv.org/pdf/2212.0807)

CAI模型训练过程Claude和ChatGPT都依赖于强化学习(RL)来训练偏好(preference)模型。CAI(ConstitutionalAI)也是建立在RLHF的基础之上,不同之处在于,CAI的排序过程使用模型(而非人类)对所有生成的输出结果提供一个初始排序结果。CAI用人工智能反馈来代替人类对表达无害性的偏好,即RLAIF,人工智能根据一套constitution原则来评价回复内容。

▌5.2补足数理短板

ChatGPT虽然对话能力强,但是在数理计算对话中容易出现一本正经胡说八道的情况。计算机学家StephenWolfram为这一问题提出了解决方案。StephenWolfram创造了的Wolfram语言和计算知识搜索引擎Wolfram|Alpha,其后台通过Mathematica实现。

ChatGPT与Wolfram|Alpha结合处理梳理问题在这一结合体系中,ChatGPT可以像人类使用Wolfram|Alpha一样,与Wolfram|Alpha“对话”,Wolfram|Alpha则会用其符号翻译能力将从ChatGPT获得的自然语言表达“翻译”为对应的符号化计算语言。在过去,学术界在ChatGPT使用的这类“统计方法”和Wolfram|Alpha的“符号方法”上一直存在路线分歧。但如今ChatGPT和Wolfram|Alpha的互补,给NLP领域提供了更上一层楼的可能。ChatGPT不必生成这样的代码,只需生成常规自然语言,然后使用Wolfram|Alpha翻译成精确的WolframLanguage,再由底层的Mathematica进行计算。

▌5.3ChatGPT的小型化

虽然ChatGPT很强大,但其模型大小和使用成本也让很多人望而却步。有三类模型压缩(modelcompression)可以降低模型的大小和成本。第一种方法是量化(quantization),即降低单个权重的数值表示的精度。比如Tansformer从FP32降到INT8对其精度影响不大。第二种模型压缩方法是剪枝(pruning),即删除网络元素,包括从单个权重(非结构化剪枝)到更高粒度的组件如权重矩阵的通道。这种方法在视觉和较小规模的语言模型中有效。第三种模型压缩方法是稀疏化。例如奥地利科学技术研究所(ISTA)提出的SparseGPT(arxiv.org/pdf/2301.0077)可以将GPT系列模型单次剪枝到50%的稀疏性,而无需任何重新训练。对GPT-175B模型,只需要使用单个GPU在几个小时内就能实现这种剪枝。

SparseGPT压缩流程

六、ChatGPT的产业未来与投资机会

▌6.1AIGC

说到ChaGPT不得不提AIGC。AIGC即利用人工智能技术来生成内容。与此前Web1.0、Web2.0时代的UGC(用户生产内容)和PGC(专业生产内容)相比,代表人工智能构思内容的AIGC,是新一轮内容生产方式变革,而且AIGC内容在Web3.0时代也将出现指数级增长。ChatGPT模型的出现对于文字/语音模态的AIGC应用具有重要意义,会对AI产业上下游产生重大影响。

▌6.2受益场景

大模型呈爆发态势(更多的参数/更大的算力芯片需求)随着算法技术和算力技术的不断进步,ChatGPT也会进一步走向更先进功能更强的版本,在越来越多的领域进行应用,为人类生成更多更美好的对话和内容。最后,作者问存算一体技术在ChatGPT领域的地位(作者本人目前在重点推进存算一体芯片的产品落地),ChatGPT想了想,大胆的预言存算一体技术将在ChatGPT芯片中占据主导地位。(深得我心)

参考文献:

ChatGPT:OptimizingLanguageModelsforDialogueChatGPT:OptimizingLanguageModelsforDialogue

GPT论文:LanguageModelsareFew-ShotLearnersLanguageModelsareFew-ShotLearners

InstructGPT论文:TraininglanguagemodelstofollowinstructionswithhumanfeedbackTraininglanguagemodelstofollowinstructionswithhumanfeedback

huggingface解读RHLF算法:IllustratingReinforcementLearningfromHumanFeedback(RLHF)IllustratingReinforcementLearningfromHumanFeedback(RLHF)

RHLF算法论文:AugmentingReinforcementLearningwithHumanFeedbackcs.utexas.edu/~ai-lab/p

TAMER框架论文:InteractivelyShapingAgentsviaHumanReinforcementcs.utexas.edu/~bradknox

PPO算法:ProximalPolicyOptimizationAlgorithmsProximalPolicyOptimizationAlgorithms

THE END
1.如何利用CHATGPT分析数据教你如何高效使用GPT工作!目前最火的话题莫过于Chat GPT了, 根据资料显示, Chat GPT目前月活用户已经突破1亿。相信不少人都在尝试使用Chat GPT帮助工作, 但是如何利用Chat GPT 来快速完成各种工作呢?今天给大家分享一些技巧 Chat GPT是什么?Chat GPT是OpenAl推出的一款基于GPT-4架构的大型语言模型, 它具有超强http://www.hlwwhy.com/ask/6705610.html
2.ChatGPT模型采样算法详解gpttemperatureChatGPT模型采样算法详解 ChatGPT 所使用的模型——GPT(Generative Pre-trainedTransformer)模型有几个参数,理解它们对文本生成任务至关重要。其中最重要的一组参数是temperature和top_p。二者控制两种不同的采样技术,用于因果语言模型(Causal language models)中预测给定上下文情景中下一个单词出现的概率。本文将重点讲解tehttps://blog.csdn.net/jarodyv/article/details/128994176
3.chatgpt的算法原理介绍ChatGPT的算法原理是基于GPT-3,通过人工标注的方式训练出一个强化学习的冷启动模型与奖励反馈模型,最后通过强化学习的方式训练出一个对话友好型的ChatGPT模型。以下是具体步骤: 1. 从GPT-3的输入语句数据集中采样一部分输入,然后人工标注期望得到的输出结果和行为。这些标注数据用于有监督地训练GPT-3模型,得到一个指令https://www.150cn.com/Article/2111.html
4.机器学习的核心算法是都是公开的ChatGPT的核心算法是Transformer机器学习的核心算法是都是公开的 ChatGPT的核心算法是Transformer Model 这还是谷歌2017年发布的算法 调整参数是一个非常困难的工作 但这本身并不是一个壁垒 比如量化交易公司的算法是绝密且困难的工作 但这本身并不是壁垒 只有专利是真真正正的壁垒 只有专利意味着必定后无来者 https://xueqiu.com/3976999949/242252671
5.剧中的压缩算法是否可行,我问了Chatgpt(硅谷第一季)剧评剧中的压缩算法是否可行,我问了Chatgpt 回答如下: 在《硅谷》剧中,主人公理查德(Richard)和他的团队开发的压缩算法“波多黎各”(Pied Piper)是一种非常强大的数据压缩算法,可以将音频、视频等数据压缩到非常小的尺寸,同时保持高质量的输出。虽然这个算法在剧中取得了很大的成功,但是从技术角度来看,这个算法在现实中https://movie.douban.com/review/15003427/
6.算法对付算法,斯坦福大学严查ChatGPT代写论文算法对付算法,斯坦福大学严查ChatGPT代写论文 发现更多热门视频 淄博职业学院通报“学生突发疾病禁止男性医护人员进入宿舍”:已达成和解 第一帮帮团6942次播放 美国网民拍到两架F-117低空飞行 空警世界3.9万次播放 这是在巴基斯坦的网友拍摄到,他看到几个人手搓客车… 戏剧人生窥世8800次播放 张本:发哪你都能接,https://video.sina.cn/finance/2023-01-29/detail-imycvtrt0393619.d.html?pt=mlist
7.ChatGPT原理理解和结构解读〖前言〗问了200+个问题后,终于完全搭建起来对Chat@GPT本身的原理理解和结构了解,形成的理解文件90%的内容都是他生成的。但是结构化这篇文章以及深入时刻,是自己完成的。今后的学习和工作可能都需要和他来共同完成了。 1 从概率角度理解生成式模型原理 https://www.jianshu.com/p/0628b1bd2c48