虽晚必到：ChatGPT技术总结算法序列神经网络|chatgpt算法预测_算命

最近ChatGPT可以说是火遍了全世界，作为由知名人工智能研究机构OpenAI于2022年11月30日发布的一个大型语言预训练模型，他的核心在于能够理解人类的自然语言，并使用贴近人类语言风格的方式来进行回复。模型开放使用以来，在人工智能领域引起了巨大的轰动，也成功火出了技术圈。从数据上看，ChatGPT用户数在5天内就达到了100万，2个月就达到了1亿；另外，在很多非人工智能领域，已经有机构在尝试用ChatGPT去做一些智能生成的事。例如财通证券发布了一篇由ChatGPT生成的行业研报，从研报的可读性和专业性上来看，虽然在细节上有很多需要推敲的地方，但是整体框架内容已经比较成熟。对于其他内容生产者来说，应用ChatGPT也能够提升个人的生产效率。

ChatGPT的强大能力是显而易见的，但对于人工智能领域不太熟悉的人，对这种黑盒的技术仍然会担忧或者不信任。恐惧通常来自于不了解，因此本文将为大家全面剖析ChatGPT的技术原理，尽量以简单通俗的文字为大家解惑。

通过本文，你可以有以下收获：

1、知道ChatGPT是什么

2、ChatGPT有哪些核心要素

3、ChatGPT能做哪些事

4、ChatGPT不能做哪些事

一、ChatGPT是什么？

上文说到ChatGPT实际上是一个大型语言预训练模型（即LargeLanguageModel，后面统一简称LLM）。什么叫LLM？LLM指的是利用大量文本数据来训练的语言模型，这种模型可以产生出强大的语言关联能力，能够从上下文中抽取出更多的信息。其实语言模型的研究从很早就开始了，随着算力的发展和数据规模的增长，语言模型的能力随着模型参数量的增加而提升。下图分别展示了LLM在参数量和数据量上的进化情况，其中数据量图例展示的是模型在预训练过程中会见到的token数量，对于中文来说一个token就相当于一个中文字符。

二、GPT

GPT全称GenerativePre-trainingTransformer，由Google在2018年提出的一种预训练语言模型。他的核心是一个Transformer结构，主要基于注意力机制来建模序列中不同位置之间的关联关系，最后可用于处理序列生成的任务。通过使用大量的文本数据，GPT可以生成各种各样的文本，包括对话、新闻报道、小说等等。上面提到了很多次语言模型，这里简单给出语言模型主要的涵义：

给定已知的token序列N_t（对中文来说是字符，对英文来说可能是单词或者词根），通过语言模型来预测t+1位置上的token是什么。实际上模型输出的是所有token在t+1位置上的概率向量，然后根据概率最大的准则选择token。大家在使用ChatGPT的时候，一定有发现机器人在生成回复的时候是一个字一个字的顺序，背后的机制就是来自于这边。

其中，实线部分为该位置的Trm能够看到哪些其他位置token的上下文知识。可以看到，对于BERT来说，每个位置上的Trm都能看到任意位置的上下文知识，因此其在具体的自然语言理解任务上会有不错的效果。而GPT则是遵循传统语言模型的模式，例如index=1位置的Trm是无法看到index>1的知识的，因此它在自然语言理解任务上的效果不如BERT，但是在生成任务上会更符合人类的直觉。业界把BERT中的MLM模式称为自编码形式(auto-encoding)，把GPT的模式称为自回归形式（auto-regressive）。

大家从BERT和GPT的对比中可以看到，BERT在语言理解上似乎更具优势，那为何现在ChatGPT的模型基座是GPT呢？这就涉及到最近两年逐渐清晰的NLP任务大一统趋势了。

三、NLP任务大一统

基于MLM训练范式得到的BERT模型虽然在很多语言理解类任务上有不错的效果下游任务，之后整个业界在处理NLP任务的时候通常会遵循预训练模型→下游任务finetune的流程：

这种方式与传统的trainingfromscratch相比，对下游任务数据的需求量更少，得到的效果也更优。不过，上述方式还是存在一些问题：

1.处理一个新的任务就需要标注新的语料，对语料的需求比较大，之前已经做过的任务语料无法高效利用。即使是信息抽取下面的不同任务（如实体识别和关系抽取两个任务）也无法通用化。

2.处理一个新的任务需要针对任务特性设计整体模型方案，虽然BERT模型的底座已经确定，但还是需要一定的设计工作量。例如文本分类的任务和信息抽取的任务的模型方案就完全不同。

对于要走向通用人工智能方向的人类来说，这种范式很难达到通用，对每个不同任务都用单独的模型方案和数据来训练显然也是低效的。因此，为了让一个模型能够尽量涵盖更多的任务，业界尝试了几种不同的路径来实现这个目标。

怎么样，是不是觉得跟ChatGPT的模式有相似的地方？

虽然有很多大一统的路径，但是OpenAI一直坚持着GPT的方向不断演化着，2019年他们发布了GPT2，这个模型相对于GPT来说，主要是扩大了参数量，扩大了训练语料，在构建语料的时候隐式地包含了multitask或者multidomain的特质，最后在二阶段验证模型的时候并不是直接做有监督的finetune，而是继续用下游数据做无监督的训练，最后的效果居然还不错，证明了只要模型够大，就能学到足够的知识用于处理一些下游任务。从它的论文名字就可以看出其核心思想：Languagemodelsareunsupervisedmultitasklearners。不过彼时，BERT及其各种变种在领域中的应用还是更广的，真正让GPT系列模型惊艳众人的工作还是要数2020年发布的GPT-3模型。LanguageModelsareFew-ShotLearners

OpenAI训练初版的GPT-3，比GPT-2整整用了15倍的语料，同时模型参数量扩展了100多倍。这么多资源的投入，使得GPT-3成为了一个“庞然巨物”，其产生的效果也是惊人的。除了在很多NLP的任务上有着很不错的指标外，其本身也产生了一种前所未有的能力——In-contextlearning。

五、何为In-contextlearning

简单来说，就是模型在不更新自身参数的情况下，通过在模型输入中带入新任务的描述与少量的样本，就能让模型”学习”到新任务的特征，并且对新任务中的样本产生不错的预测效果。这种能力可以当做是一种小样本学习能力。可以参考下图的例子来理解：其中，taskdescription和examples用来帮助模型学习新任务，最后的Prompt用来测试模型是否学会了。

与传统的小样本学习范式还是有所不同，之前主流的小样本学习范式以Meta-learning为主，通过将训练数据拆成不同的小任务进行元学习。在学习的过程中，模型的参数是一直在变化的，这是最大的一个不同点。

那不更新参数的小样本学习有什么好处呢？

对于大模型来说，这可是极佳的特性。因为大模型的微调成本通常都极为庞大，很少有公司能够具备微调训练的资源。因此，如果能够通过In-contextlearning的特性，让大模型快速学习下游任务，在相对较小的成本下（对大模型进行前向计算）快速完成算法需求，可以大大提升技术部门的生产力。

In-contextlearning的效果固然惊艳，但是对于一些包含复杂上下文或者需要多步推理的任务仍然有其局限性，这也是业界一直以来致力于让人工智能拥有的能力——推理能力。那么大模型具有推理能力吗？对于GPT-3来说，答案是可以有，但有一定的限制。我们先来看看它有的部分。

六、怎么理解In-contextlearning

七、何为Chain-of-thought（COT）？

然而，当我们将上述问题范例中的答案再细化一些，对推到出答案的每一个步骤都写出来，再将测试样例一起输入到模型中，此时模型居然能够正确回答了，而且也能够参照范例中的样例进行一定的推理，如图所示：

上述的模型输入中，还带有可参考的问题范例，还属于小样本的范畴。诡异的是，有人使用了一种匪夷所思的方法，让其具备了零样本的推理能力：在问题样例的答案中增加一句Let’sthinkstepbystep.然后模型居然能够回答出之前不能回答的问题。

当然，上图中模型并未直接给出一个简洁的答案，而是给出了推导答案的步骤，论文中则是将上述output与输入模型的Prompt拼在一块，再次输入模型，最终得到了简洁的答案输出：

既然大模型具备了COT的特性，那么就能说明它具备了推理能力了吗？答案是不确定的。因为在更多的复杂逻辑推理类任务或者计算任务上，大模型还是无法回答。简单来说就是他可以做一些简单的小学应用题，但是稍微复杂一点的问题它就是在瞎猜了。具体的例子可以参考这篇论文中的分析：LimitationsofLanguageModelsinArithmeticandSymbolicInduction

九、Instruction-Tuning与RLFH技术

Instruction-Tuning

Prompt-learning实际上是一种语言模型能够股泛化不同任务的方式，从广义层面上来看，可以有多种实现方式，例如上面的PET，本文之前提到的T5模型，以及初版的GPT-3等。指令微调实际上也可以算作是广义Prompt-learning中的一种实现方式（个人愚见）。它的核心思想是尽可能收集不同类型的自然语言处理任务（包括理解和生成），并使用自然语言设计对应的任务指令，让模型试图理解不同任务的指令与特性，最终通过语言模型生成的方式完成不同任务的训练，指令微调实例如下图所示：

那么指令微调与BERT、T5、GPT-3等Prompt方式有什么区别呢？

2.T5的Prompt更像是在预训练时对不同语言任务的数据打上了不同的标记，让模型对语言任务有了初步的理解，但是不够深入，无法应用在零样本的场景。

3.GPT-3的Prompt中，会基于在模型训练过程中见过的数据，更像是让模型将Prompt中的文本进行续写。这种方式可以帮助模型更好地理解用户输入的内容，并产生更准确和自然的输出。但其在零样本场景下效果仍然不佳。

4.指令微调技术使用Prompt来为模型提供一系列指令或者命令，这些指令或命令会告诉模型应该如何进行特定任务的处理。与GPT-3中的Prompt不同，指令微调中的Prompt是针对特定任务和特定的模型进行设计的，相当于是指导模型如何完成任务。指令微调技术提升了模型的零样本学习能力。模型对于未见过的任务也能够理解并尝试处理。在GPT-3后续的迭代版本中，加入了指令微调后，即使在Prompt中不引入带标注的样本，模型也能够比较好的理解需求并得到不错的效果。

目前公开开源的模型FLANT5就是在T5模型基础上进行了指令微调的训练，相较于那些动辄几百亿、几千亿参数的大模型来说，这个模型的参数量已经足够亲民，可以作为个人研究或者业务实现的strongbaseline

在ChatGPT公开后，各种五花八门的Prompt层出不穷。有让其作为一个linux终端的，有让其作为一个二次元猫娘的，也有让他写武侠小说的。感觉上ChatGPT可以做任何事情，只要你的脑洞足够大。这种通才特质有很大一部分要归功于指令微调。只要我们设计的Prompt指令足够清晰完整，模型总能够理解我们要干什么，并尽量按照我们的需求去完成任务。我认为这是其有别于过往大模型的重要特性之一。

深度强化学习简述

指令微调技术固然强大，但是其本身也存在一定的缺点：

1.一些开放性的生成性语言任务并不存在固定正确的答案。因此在构建指令微调的训练集时，就无法覆盖这些任务了。

2.语言模型在训练的时候，对于所有token层面的错误惩罚是同等对待的。然而在文本生成时，有些token生成错误是非常严重的，需要加权惩罚。换句话说，语言模型的训练任务目标与人类的偏好存在gap。

综上，我们需要模型能够学习如何去满足人类的偏好，朝着人类满意的更新模型参数。因此，我们就需要引入人类对模型的奖惩方法（Reward）作为模型的引导，简称.越高，模型的就越能满足人类偏好。很自然的，我们就能将最大化,即R的期望。一般来说，对于神经网络的训练来说，需要设计一个可微的目标函数，这样才能应用梯度下降法来对模型进行参数更新学习。然而，人类的R一般很难设计成可微的，因此不能直接用于神经网络的训练中，因此就有了强化学习的诞生。近年来，强化学习领域也在飞速发展，有了alphaGo系列的惊艳效果，有很多研究都将强化学习开始与深度学习进行了结合。比较典型的研究为PolicyGradientmethods（基于策略的梯度方法）。基于上述的训练目标函数，我们仍然应用梯度计算来进行参数更新：

对于这个公式有两个问题：

1.如何估计R(*)的期望函数？

2.如果R(*)是一个不可微的函数，该如何计算梯度？

PolicyGradientmethods就是用来解决上述问题的。通过一系列的公式变换（过程就不放了，大家可以参考斯坦福cs224n），可以得到以下式子：

我们将梯度计算移到了计算期望的式子内。虽然我们不能直接计算期望，但是可以采用蒙特卡洛采样的方法，去采样得到目标梯度的无偏估计。

将上式重新代入梯度更新的式子中，得到：

此时，在梯度更新时候我们会有两种趋势：

·当R为正的时候，说明对当前策略选择有奖励，因此我们需要让梯度沿着最大化的方向更新

·当R为负的时候，说明对当前策略选择有惩罚，因此我们需要让梯度沿着最小化的方向更新

通过这种方式，我们就让模型逐渐逼近R所期望的方向学习。

ChatGPT也将强化学习的技术进行了应用集成，通过人机结合，成功让模型学会了人类的偏好。这种技术就是ReinforcementlearningfromHumanFeedback,以下简称RLHF。

因为本人对强化学习领域不太熟悉，所以不足以完全解释其中的原理机制。因此主要参考斯坦福cs224n课程系列中对于该部分的宏观层面讲解。

RLHF

有了上面的强化学习技术，我们现在能够对一些不可微的函数进行梯度学习，我们就能引入一些符合人类期望的奖励函数作为模型训练目标。但是，这套工作流程让然存在一些问题：

为了降低训练成本，先标注适量的数据集，让人先给出偏好标注。然后，我们基于这个数据训练一个奖励模型，用来自动生成人类对一个数据的偏好回答。

·人本身会存在主观偏差，因此对数据的标注或者模型策略的评价也会有偏差。

为了能够对人类的主观偏差有一定的鲁棒性，不直接给出一个具体的好坏答复，而是采用一种PairwiseComparison的方式，当生成一个文本输出时，人类可以对其进行成对比较，以指出其中更好或更合适的内容。例如，在文本摘要任务中，人类可以比较两个不同版本的摘要，并选择更好的那一个。这些成对比较可以帮助InstructGPT学习到人类的喜好和优先级，从而更好地生成高质量的文本输出。为了实现PairwiseComparison，需要设计一些有效的算法和策略，以便生成不同版本的文本输出，并对它们进行比较。具体来说，可以使用类似于基于排序的学习方法的算法来训练模型，并优化生成策略和模型参数，以便更好地满足人类反馈的需求：

图中，w和l分别代表两个不同的模型生成结果，从人类的视角看w的结果更优，因此w的分数应该也要大于l。

最后我们将RLHF的核心步骤串联起来：

1.初始状态下有一个通过指令微调方法训练后的语言模型。

2.标注适量的数据，用于训练一个能够针对语言模型进行打分的Reward模型。

3.用的权重参数初始化一个新的模型，使用上面的基于策略的深度强化学习方法优化下面的Reward：

除了外，上式还加了一个正则项。这个正则项可以防止通过强化学习更新的模型与原始的语言模型”跑的过于遥远”，可以看成是一条缰绳，让其保持基本的语言模型的特质。

InstructGPT中的RLHF

下图为目前最常见的InstructGPT训练流程。

1.与上一小节中的通用RLHF流程不同，这里我们需要先用一些标注数据finetune一个SFT模型。训练任务与GPT-3的任务相同，因此数据也是采用prompt-generation的方式。构造的数据集的方式比较有讲究，首先要保证任务的多样性足够丰富；其次，对每个样本，标注着需要设计一个指令，然后生成多个问答对于该指令进行组合，用于组成一个小样本的Prompt；最后就是OpenAI收集了实际服务当中产生的一些用户样例，这个数据能够让模型更切合实际使用的数据分布。

2.构建RM数据集，并训练得到。为了减少人工的成本，会先用步骤1中得到的SFT模型为每个数据的Prompt产生K个生成结果，并引入人工根据结果进行质量排序。排序后的数据可以用来构建PairwiseComparison的数据，用于训练得到。

3.基于策略优化的强化学习方法，以步骤1得到的SFT模型作为权重初始化模型，利用步骤2对样本生成进行打分。

ChatGPT中的RLHF

根据OpenAI发布的技术博客所述，ChatGPT的训练方式与InstructGPT几乎相同，仅在收集数据的时候采用了不同的方式，具体细节并没有公布，只提到他们让人工的标注人员同时扮演对话过程中的用户与机器人，并通过一系列准则规范指导他们如何编排对话中的回复，最终生成了对话场景的训练数据。最终，他们将其与InstructGPT的数据集进行的融合，并统一转化为对话的形式。另外，在训练Reward模型时，他们通过让人工标注人员与对话机器人进行对话来产生会话语料，并从中选择一个模型生成的消息，通过采样的方式生成多个不同的补全文本，并由标注人员进行打分排序，形成PairwiseComparison数据。

ChatGPT训练的工程难度

十、Instruction-Tuning与RLFH技术

当前，伴随着ChatGPT的接口开放，已经涌现出了很多有趣的应用。我按照自己的观察，总结了ChatGPT擅长做的以及不擅长做的事。

ChatGPT的能

ChatGPT虽然以对话机器人的产品形态提供服务，但是其本质上还是基于语言模型的能力。在应用层面上，他有三个强大的特质：

1.对人类输入的需求理解能力特别强。

2.善于进行知识的检索与整合。

3.生成能力很强，在长距离生成过程中不会有重复、不通顺、机械等传统生成模型固有的问题。

因此，适合其大展身手的场景可包括：

基于搜索的问答

目前最典型的场景就是继承了ChatGPT的NewBing。ChatGPT本身存在知识信息无法自更新的缺点，导致产生的回复无法紧跟时代。因此，将搜索引擎与ChatGPT进行集成就显得水到渠成了。据了解，微软通过一种称为“普罗米修斯”的模型机制，将搜索与ChatGPT的生成能力进行了整合。以最近比较火的“硅谷银行破产”事件为例，我们有如下提问：

除了NewBing之外，基于文档的辅助阅读也是非常典型的场景。最近比较火的ChatPDF能够上传论文等PDF文件，并支持对文档的QA问答。这实际上也是一种问答搜索。

处理各种基础的NLP任务

我们可以将他包装成一个通用的NLP工具平台，处理各种任务，包括但不限于文本分类、信息抽取、文本摘要、机器翻译等。通过上述章节的介绍可知，GPT-3系列模型支持小样本和零样本学习的能力，因此应用他来做NLP任务可以降低人工标注的成本，并得到一个强大的baseline。我们尝试了对文档进行信息抽取的任务，如研报公告中的财务经营指标抽取：

可以看到上面我采用的是零样本的模式，但是ChatGPT以几乎100%的准确率将所有指标抽了出来。不过，抽取出来的数据没有单位，我们还可以让他做个修正：

与其他组件的整合

基于ChatGPT强大的理解能力，我们可以把它作为一个人类与其他场景工具进行沟通的中间桥梁，大大提升个人的生产力。

·例如日常办公涉及到的OFFICE全家桶，目前已经有了很多集成的产品，例如ChatBCG，通过输入文字需求，就能自动生成PPT大纲以及每页的大致内容（当然，还不能自动生成多样的背景样式）；ChatExcel，通过输入文字需求，能够让其实现表格的基本处理、函数计算、分组过滤排序等复杂操作。

2023年3月17日，微软宣布在OFFICE全家桶中集成GPT-4。打工人的生产力一下子就提升数倍！

·另外，还可以与其他模态的模型工具进行整合，例如OpenAI开放的API中就包括了Whisper，一个语音识别的模型，人们可以通过Whisper将语音转文本，最终将文本送到GPT-3的接口中。另外，ChatGPT也可以与图像视觉的大模型进行结合，提供文生图的功能，例如今年大热的stablediffusion模型。之前图像生成非常依赖输入的Prompt质量。我们可以让ChatGPT辅助生成一个高质量的Prompt，然后输入到stablediffusion中，就能产生更符合需求的图像。

文字创作

作为一个生成式大模型，创作能力可以说是他的看家本领。ChatGPT的创作场景格外丰富，只有你想不到，没有他做不到：

·合并撰写工作周报与工作小结、小说创作、电影剧本创作等。但对于专业度和准确性比较高的场景，就不太能胜任了，例如金融场景中的研报生成，即使是将具体的财务数据连同要求一起输入模型，最后生成的结果中也会有一些事实性的数据错误，这种错误是无法容忍的。

·可以作为一个AI辅助训练工具。当受限于成本无法使用ChatGPT直接提供AI能力时，不妨可以将ChatGPT视作一个数据增强器，生成任务所需要的训练语料，再辅以少量的人工进行核验，就能以较低的成本获得高质量的语料。

ChatGPT的不能

另外，在ChatGPT的训练过程中，使用了RLHF来引导模型按照人类偏好进行学习。然而，这种学习方式也可能导致模型过分迎合人类的偏好，而忽略正确答案。因此大家可以看到ChatGPT经常会一本正经的胡说八道。在专业领域，我们需要他知之为知之，不知为不知，不然我们就必须要引入人工来审核他的答案。

最后，应用大模型时绕不过的一个问题就是数据隐私安全。无论是ChatGPT，还是国内即将推出的大模型，由于B端客户很少有硬件资源能够匹配上，很难进行私有化本地部署，通常是以LaaS的形式提供服务。而且目前大模型在专业垂直领域的效果还是未知的，因此通常需要使用领域语料进行微调，这就意味着数据要流出到模型服务提供方。一般大型公司对于数据的流出是非常慎重的，因此如何在安全合规的条件下，完成这一条链路的流转，是目前亟需解决的问题。

额外提一个应用：代码生成。这个场景既是能也是不能。他在python语言的编码能力上确实不错，甚至能生成一段textcnn的实现；但是在java或者其他编程语言上，他的生成质量就相对较差了，而且生成的代码质量也不如一个经验丰富的工程师，在代码执行性能上暂时还无法满足需求。

十一、关于大模型的可研究方向

关于ChatGPT的内容到这也就基本写完了。作为一名NLP领域的从业者，我也跟其他人一样，被其强大的能力所震惊，同时也在思考自己未来还能在这个领域做哪些事情，大概想了一些方向，欢迎共同讨论：

·用更少的参数量，达到更好的效果。无论是之前DeepMind的Chinchilla(70B)，还是最近Meta的LLaMA（65B），亦或是3月14日智谱团队刚发布的ChatGLM（6B），他们的参数量都小于GPT-3（175B），但是其模型效果都能够匹配上GPT-3。在LLaMA的论文中，Meta表示他们用了更多的语料token来训练，这有可能意味着目前大模型的参数对知识的利用率还有很大的上升空间。我们可以通过精简参数，扩大语料规模来提升大模型的能力。

十二、结束语

在本文的最后来一些鸡汤吧：时代的车轮是不断向前的，技术的更迭也会给这个时代带来不可估量的影响。虽然ChatGPT的出现可能会对业界带来不小的冲击，但我们应该将目光放到更广阔的天地，在那儿将有更多丰富的未知世界等着我们去探索。

以此自勉！

IllustrationbyIconScoutStorefromIconScout

-TheEnd-

“AI技术流”原创投稿计划

投稿内容

//前沿资讯解说/心得经历讲述//

投稿须知

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

THE END

虽晚必到：ChatGPT技术总结算法序列神经网络

一文解析ChatGPT原理及技术架构算法

虽晚必到：ChatGPT技术总结算法序列神经网络

以ChatGPT为代表的“大模型”会是多大的技术革命？AI新浪财经

ChatGPT研究及投资猜想

金融学教授：ChatGPT可通过分析财经新闻预测股价涨跌

一文搞懂ChatGPT相关概念和区别：GPT大模型AIGCLLMTransformer羊驼LangChain…..

《传媒观察》｜“大数据大模型大计算”：舆情精准研判中的ChatGPT

奇点来临：ChatGPT时代的机遇与挑战

ChatGPT的朋友们：大语言模型经典论文一次读到吐

ChatGPT是颠覆性突破？专家：它提供的答案在准确性等方面还有局限

ChatGPT军事运用的几个误区人类智能

革命性的ChatGPT有多厉害？我们测试了6个有关癌症的问题人工智能HER2癌症AIChatGPT

从ChatGPT看AI未来趋势和挑战万字长文

ChatGPT：AI应用拐点已至