去年12月1日,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。ChatGPT是一种专注于对话生成的语言模型。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。其中GPT是GenerativePre-trainedTransformer(生成型预训练变换模型)的缩写。通过学习大量现成文本和对话集合(例如Wiki),ChatGPT能够像人类那样即时对话,流畅的回答各种问题。(当然回答速度比人还是慢一些)无论是英文还是其他语言(例如中文、韩语等),从回答历史问题,到写故事,甚至是撰写商业计划书和行业分析,“几乎”无所不能。甚至有程序员贴出了ChatGPT进行程序修改的对话。ChatGPT和AIGC的联合使用ChatGPT也可以与其他AIGC模型联合使用,获得更加炫酷实用的功能。例如上面通过对话生成客厅设计图。这极大加强了AI应用与客户对话的能力,使我们看到了AI大规模落地的曙光。
一、ChatGPT的传承与特点
▌1.1OpenAI家族
GPT家族主要模型对比
▌1.2ChatGPT的主要特点
ChatGPT是基于GPT-3.5(GenerativePre-trainedTransformer3.5)架构开发的对话AI模型,是InstructGPT的兄弟模型。ChatGPT很可能是OpenAI在GPT-4正式推出之前的演练,或用于收集大量对话数据。
二、ChatGPT/GPT的原理
▌2.1NLP
NLP/NLU领域已知局限包括对重复文本、对高度专业的主题的误解,以及对上下文短语的误解。对于人类或AI,通常需接受多年的训练才能正常对话。NLP类模型不仅要理解单词的含义,还要理解如何造句和给出上下文有意义的回答,甚至使用合适的俚语和专业词汇。
NLP技术的应用领域本质上,作为ChatGPT基础的GPT-3或GPT-3.5是一个超大的统计语言模型或顺序文本预测模型。
▌2.2GPTv.s.BERT
BERT与GPT的技术架构(图中En为输入的每个字,Tn为输出回答的每个字)
三、ChatGPT的技术架构
▌3.1GPT家族的演进
说到ChatGPT,就不得不提到GPT家族。ChatGPT之前有几个知名的兄弟,包括GPT-1、GPT-2和GPT-3。这几个兄弟一个比一个个头大,ChatGPT与GPT-3更为相近。
ChatGPT与GPT1-3的技术对比GPT家族与BERT模型都是知名的NLP模型,都基于Transformer技术。GPT-1只有12个Transformer层,而到了GPT-3,则增加到96层。
▌3.2人类反馈强化学习
InstructGPT/GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于,新加入了被称为RLHF(ReinforcementLearningfromHumanFeedback,人类反馈强化学习)。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。在InstructGPT中,以下是“goodnessofsentences”的评价标准。
真实性:是虚假信息还是误导性信息?
无害性:它是否对人或环境造成身体或精神上的伤害?
有用性:它是否解决了用户的任务?
▌3.3TAMER框架
这里不得不提到TAMER(TraininganAgentManuallyviaEvaluativeReinforcement,评估式强化人工训练代理)这个框架。该框架将人类标记者引入到Agents的学习循环中,可以通过人类向Agents提供奖励反馈(即指导Agents进行训练),从而快速达到训练任务目标。引入人类标记者的主要目的是加快训练速度。尽管强化学习技术在很多领域有突出表现,但是仍然存在着许多不足,例如训练收敛速度慢,训练成本高等特点。特别是现实世界中,许多任务的探索成本或数据获取成本很高。如何加快训练效率,是如今强化学习任务待解决的重要问题之一。而TAMER则可以将人类标记者的知识,以奖励信反馈的形式训练Agent,加快其快速收敛。TAMER不需要标记者具有专业知识或编程技术,语料成本更低。通过TAMER+RL(强化学习),借助人类标记者的反馈,能够增强从马尔可夫决策过程(MDP)奖励进行强化学习(RL)的过程。
TAMER架构在强化学习中的应用具体实现上,人类标记者扮演对话的用户和人工智能助手,提供对话样本,让模型生成一些回复,然后标记者会对回复选项打分排名,将更好的结果反馈回模型中。Agents同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统,通过奖励策略对模型进行微调并持续迭代。在此基础上,ChatGPT可以比GPT-3更好的理解和完成人类语言或指令,模仿人类,提供连贯的有逻辑的文本信息的能力。
▌3.4ChatGPT的训练
ChatGPT的训练过程分为以下三个阶段:第一阶段:训练监督策略模型GPT3.5本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT3.5初步具备理解指令的意图,首先会在数据集中随机抽取问题,由人类标注人员,给出高质量答案,然后用这些人工标注好的数据来微调GPT-3.5模型(获得SFT模型,SupervisedFine-Tuning)。此时的SFT模型在遵循指令/对话方面已经优于GPT-3,但不一定符合人类偏好。
四、ChatGPT的局限
五、ChatGPT的未来改进方向
▌5.1减少人类反馈的RLAIF
2020年底,OpenAI前研究副总裁DarioAmodei带着10名员工创办了一个人工智能公司Anthropic。Anthropic的创始团队成员,大多为OpenAI的早期及核心员工,参与过OpenAI的GPT-3、多模态神经元、人类偏好的强化学习等。2022年12月,Anthropic再次发表论文《ConstitutionalAI:HarmlessnessfromAIFeedback》介绍人工智能模型Claude。(arxiv.org/pdf/2212.0807)
CAI模型训练过程Claude和ChatGPT都依赖于强化学习(RL)来训练偏好(preference)模型。CAI(ConstitutionalAI)也是建立在RLHF的基础之上,不同之处在于,CAI的排序过程使用模型(而非人类)对所有生成的输出结果提供一个初始排序结果。CAI用人工智能反馈来代替人类对表达无害性的偏好,即RLAIF,人工智能根据一套constitution原则来评价回复内容。
▌5.2补足数理短板
ChatGPT虽然对话能力强,但是在数理计算对话中容易出现一本正经胡说八道的情况。计算机学家StephenWolfram为这一问题提出了解决方案。StephenWolfram创造了的Wolfram语言和计算知识搜索引擎Wolfram|Alpha,其后台通过Mathematica实现。
ChatGPT与Wolfram|Alpha结合处理梳理问题在这一结合体系中,ChatGPT可以像人类使用Wolfram|Alpha一样,与Wolfram|Alpha“对话”,Wolfram|Alpha则会用其符号翻译能力将从ChatGPT获得的自然语言表达“翻译”为对应的符号化计算语言。在过去,学术界在ChatGPT使用的这类“统计方法”和Wolfram|Alpha的“符号方法”上一直存在路线分歧。但如今ChatGPT和Wolfram|Alpha的互补,给NLP领域提供了更上一层楼的可能。ChatGPT不必生成这样的代码,只需生成常规自然语言,然后使用Wolfram|Alpha翻译成精确的WolframLanguage,再由底层的Mathematica进行计算。
▌5.3ChatGPT的小型化
虽然ChatGPT很强大,但其模型大小和使用成本也让很多人望而却步。有三类模型压缩(modelcompression)可以降低模型的大小和成本。第一种方法是量化(quantization),即降低单个权重的数值表示的精度。比如Tansformer从FP32降到INT8对其精度影响不大。第二种模型压缩方法是剪枝(pruning),即删除网络元素,包括从单个权重(非结构化剪枝)到更高粒度的组件如权重矩阵的通道。这种方法在视觉和较小规模的语言模型中有效。第三种模型压缩方法是稀疏化。例如奥地利科学技术研究所(ISTA)提出的SparseGPT(arxiv.org/pdf/2301.0077)可以将GPT系列模型单次剪枝到50%的稀疏性,而无需任何重新训练。对GPT-175B模型,只需要使用单个GPU在几个小时内就能实现这种剪枝。
SparseGPT压缩流程
六、ChatGPT的产业未来与投资机会
▌6.1AIGC
说到ChaGPT不得不提AIGC。AIGC即利用人工智能技术来生成内容。与此前Web1.0、Web2.0时代的UGC(用户生产内容)和PGC(专业生产内容)相比,代表人工智能构思内容的AIGC,是新一轮内容生产方式变革,而且AIGC内容在Web3.0时代也将出现指数级增长。ChatGPT模型的出现对于文字/语音模态的AIGC应用具有重要意义,会对AI产业上下游产生重大影响。
▌6.2受益场景
大模型呈爆发态势(更多的参数/更大的算力芯片需求)随着算法技术和算力技术的不断进步,ChatGPT也会进一步走向更先进功能更强的版本,在越来越多的领域进行应用,为人类生成更多更美好的对话和内容。最后,作者问存算一体技术在ChatGPT领域的地位(作者本人目前在重点推进存算一体芯片的产品落地),ChatGPT想了想,大胆的预言存算一体技术将在ChatGPT芯片中占据主导地位。(深得我心)
参考文献:
ChatGPT:OptimizingLanguageModelsforDialogueChatGPT:OptimizingLanguageModelsforDialogue
GPT论文:LanguageModelsareFew-ShotLearnersLanguageModelsareFew-ShotLearners
InstructGPT论文:TraininglanguagemodelstofollowinstructionswithhumanfeedbackTraininglanguagemodelstofollowinstructionswithhumanfeedback
huggingface解读RHLF算法:IllustratingReinforcementLearningfromHumanFeedback(RLHF)IllustratingReinforcementLearningfromHumanFeedback(RLHF)
RHLF算法论文:AugmentingReinforcementLearningwithHumanFeedbackcs.utexas.edu/~ai-lab/p
TAMER框架论文:InteractivelyShapingAgentsviaHumanReinforcementcs.utexas.edu/~bradknox
PPO算法:ProximalPolicyOptimizationAlgorithmsProximalPolicyOptimizationAlgorithms