有监督微调(SupervisedFine-tuning,SFT)
其他方法
思维链(Chain-of-thought,CoT)
与chatGPT类似的工作
引用
收集NLP各种任务的数据集,加上任务描述和提示组装成新的数据集,并使用这些数据微调预训练的大型语言模型。包括指令微调和有监督微调。
从上述数据集中采样,使用大型语言模型生成多个响应,手动对这些响应进行排名,并训练奖励模型(RM)以适应人类偏好。
img
GPT-3.5参数量仍然为175B,总体进化树如下:
GPT-3是一种自回归模型,仅使用解码器,训练目标也是预测下一个单词(没有判断下一句任务)。
最大的GPT-3模型有175B参数,是BERT模型大470倍(0.375B)
image-20230221144754842
不需要微调
一个模型解决NLP多种任务
NLP任务都可以用生成模型解决
和人类一样,只需要看极少数量的样例就能学会
零样本学习:提供任务描述、提示
单样本学习:提供任务描述、一个样例、提示
少样本学习:提供任务描述、几个样例、提示
BERT-large:BooksCorpus800Mwords、EnglishWikipedia2.5Bwords
GPT-2:WebText2,BooksCorpus、Wikipedia总量达到了40GB。
GPT-3:**WebText2,BooksCorpus、Wikipedia、CommonCrawl**等数据集45TB数据。
image-20230221153905277
指令微调(InstructionFine-Tuning,IFT)
收集NLP各种任务的数据集,加上任务描述和提示组装成新的数据集。chatGPT使用到的数据集如下:
image-20230221113507381
UnnaturalInstructions(Honovich等,'22)//arxiv.org/abs/2212.09689
Super-naturalinstructions(Wang等,'22)//arxiv.org/abs/2204.07705
Self-Instruct(Wang等,'22)//arxiv.org/abs/2212.10560
T0(Sanh等,'22)//arxiv.org/abs/2110.08207
Naturalinstructions数据集(Mishra等,'22)//arxiv.org/abs/2104.08773
FLANLM(Wei等,'22)//arxiv.org/abs/2109.01652
OPT-IML(Iyer等,'22)//arxiv.org/abs/2212.12017
人类反馈强化学习(ReinforcementLearningFromHumanFeedback,RLHF)
描述:
策略(policy):一个接受提示并返回一系列文本(或文本的概率分布)的LM。
行动空间(actionspace):LM的词表对应的所有词元(一般在50k数量级),
观察空间(observationspace)是可能的输入词元序列,也比较大(词汇量^输入标记的数量)。
奖励函数是偏好模型和策略转变约束(Policyshiftconstraint)的结合。
此过程分为两步:
用强化学习(RL)方式微调LM
开源数据集:
OpenAI使用的是用户提交的反馈。
image-20230221111329526
这部分简单介绍一下和chatGPT使用的微调并列的一些方法
如下图所示使用一些带有逐步推理的数据集进行微调
橙色是任务描述,粉色是问题和答案,蓝色是推理过程
思维链提示(Wei等,'22)//arxiv.org/abs/2201.11903
Meta的BlenderBot//arxiv.org/abs/2208.03188
Google的LaMDA//arxiv.org/abs/2201.08239
DeepMind的Sparrow//arxiv.org/abs/2209.14375
Anthropic的Assistant//arxiv.org/abs/2204.05862
审核编辑:李倩
原文标题:通俗易懂chatGPT原理
长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)