通俗易懂chatGPT原理|chatgpt是什么通俗解答_算命

有监督微调(SupervisedFine-tuning,SFT)

其他方法

思维链(Chain-of-thought，CoT)

与chatGPT类似的工作

引用

收集NLP各种任务的数据集，加上任务描述和提示组装成新的数据集，并使用这些数据微调预训练的大型语言模型。包括指令微调和有监督微调。

从上述数据集中采样，使用大型语言模型生成多个响应，手动对这些响应进行排名，并训练奖励模型（RM）以适应人类偏好。

img

GPT-3.5参数量仍然为175B，总体进化树如下：

GPT-3是一种自回归模型，仅使用解码器，训练目标也是预测下一个单词（没有判断下一句任务）。

最大的GPT-3模型有175B参数，是BERT模型大470倍(0.375B)

image-20230221144754842

不需要微调

一个模型解决NLP多种任务

NLP任务都可以用生成模型解决

和人类一样，只需要看极少数量的样例就能学会

零样本学习：提供任务描述、提示

单样本学习：提供任务描述、一个样例、提示

少样本学习：提供任务描述、几个样例、提示

BERT-large：BooksCorpus800Mwords、EnglishWikipedia2.5Bwords

GPT-2：WebText2,BooksCorpus、Wikipedia总量达到了40GB。

GPT-3：**WebText2,BooksCorpus、Wikipedia、CommonCrawl**等数据集45TB数据。

image-20230221153905277

指令微调(InstructionFine-Tuning，IFT)

收集NLP各种任务的数据集，加上任务描述和提示组装成新的数据集。chatGPT使用到的数据集如下：

image-20230221113507381

UnnaturalInstructions(Honovich等,'22)//arxiv.org/abs/2212.09689

Super-naturalinstructions(Wang等,'22)//arxiv.org/abs/2204.07705

Self-Instruct(Wang等,'22)//arxiv.org/abs/2212.10560

T0(Sanh等,'22)//arxiv.org/abs/2110.08207

Naturalinstructions数据集(Mishra等,'22)//arxiv.org/abs/2104.08773

FLANLM(Wei等,'22)//arxiv.org/abs/2109.01652

OPT-IML(Iyer等,'22)//arxiv.org/abs/2212.12017

人类反馈强化学习(ReinforcementLearningFromHumanFeedback，RLHF)

描述：

策略(policy)：一个接受提示并返回一系列文本(或文本的概率分布)的LM。

行动空间(actionspace)：LM的词表对应的所有词元(一般在50k数量级)，

观察空间(observationspace)是可能的输入词元序列，也比较大(词汇量^输入标记的数量)。

奖励函数是偏好模型和策略转变约束(Policyshiftconstraint)的结合。

此过程分为两步：

用强化学习(RL)方式微调LM

开源数据集：

OpenAI使用的是用户提交的反馈。

image-20230221111329526

这部分简单介绍一下和chatGPT使用的微调并列的一些方法

如下图所示使用一些带有逐步推理的数据集进行微调

橙色是任务描述，粉色是问题和答案，蓝色是推理过程

思维链提示(Wei等,'22)//arxiv.org/abs/2201.11903

Meta的BlenderBot//arxiv.org/abs/2208.03188

Google的LaMDA//arxiv.org/abs/2201.08239

DeepMind的Sparrow//arxiv.org/abs/2209.14375

Anthropic的Assistant//arxiv.org/abs/2204.05862

审核编辑：李倩

原文标题：通俗易懂chatGPT原理

长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层（0731-88081133）

THE END

通俗易懂chatGPT原理

通俗直观介绍ChatGPT背后的大语言模型理论知识

七个最常见的ChatGPT问题及解答人工智能

深度解析ChatGPT底层逻辑，探秘AI模型的神奇世界，初中生也能看懂的ChatGPT基本原理腾讯云开发者社区

ChatGPT爆火，真的那么神？我们会失业吗？

ChatGPT中，GPT分别是什么意思？赵青青

GPT

ChatGPT到底是什么？会给我们生活来这些改变↓

焦点对话公共关系与ChatGPT

gpt全称是什么意思？看看ChatGPT怎么说

专家解读ChatGPT能做什么虚火过后才知道谁是赢家新闻频道

chatgpt怎么用？chatgpt国内使用方法详解软件教程

深信服安全GPT技术应用一文详解

陈宝生：从ChatGPT看教育的未来和未来的教育

通俗易懂chatGPT原理

一周文化讲座｜ChatGPT：潘多拉魔盒还是文明利器？当代潘多拉魔盒翻译讲座诗歌陈晓辉

对话ChatGPT：你的“智慧”从何而来？

ChatGPT让你的字典里再也没有“读不懂”三个字！锦囊专家官网

挑战一篇文章讲清楚ChatGPT相关概念！小学生也能看懂！人人都是产品经理

ChatGPT专题ChatGPT的核心本质——“贝叶斯公式”AET

两种方法教你如何用ChatGPT接入微信

ChatGPT免费在线使用ChatGPT中国官网入口