编者按:ChatGPT是由OpenAI公司推出的一款人工智能聊天机器人程序,能实现撰写邮件、视频脚本、文案、翻译、代码,写论文等任务,被认为正在“掀起新一轮AI革命”。ChatGPT上线不到一周日活用户破百万,2个月破亿,迅速火爆全网,成为史上用户增长速度最快的消费级应用。ChatGPT的推出将不断拓展海量应用场景,赋能传统领域智能化发展,推动AI行业开启新发展浪潮。
本期要目
ChatGPT的概念特征及发展现状
ChatGPT的技术发展路径
ChatGPT的未来应用场景
一、ChatGPT的概念特征
ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。
表1ChatGPT特点
ChatGPT是在GPT3.5大模型语言模型(LLM,即LargeLanguageModel)的基础上,加入“基于人类反馈的强化学习(RLHF,ReinforcementLearningfromHumanFeedback)”来不断微调(Fine-tune)预训练语言模型,使得LLM模型学会理解不同类型的命令指令,并通过多重标准合理判断基于给定的prompt输入指令,输出的是否为优质信息(这些标准包括:富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等)。
二、ChatGPT的优势与独特性
目前,ChatGPT不需要任何额外的训练就能在多种不同的领域中应用并快速输出高质量的文本,相较于以前的模型已具备较强的自然语言处理能力,具体来讲可归纳为以下几点:
第一、更强的对话能力:ChatGPT支持多轮对话,在自然语言交互方面、情感分析、情景会话等方面运行流畅,在语言模仿能力和逻辑判断方面展现出更强的能力。
第二、更全面的语言能力:ChatGPT支持多种语言环境,并且支持长短句输入,在阅读理解、复杂语句处理、逻辑能力和文本生成方面更加灵活。
第三、更高精度的预测结果:ChatGPT的训练模型支持大规模数据集,具备海量的话题库,通用性更强。
三、ChatGPT现存的缺陷和发展瓶颈
(一)精准性、真实性、重复率和依赖性尚待改善
第二、在较长的会话中,由于训练数据的偏差和过度修正,ChatGPT会过度强调某些短语或者句子,导致重复性高的问题。例如它会重申它是由OpenAI训练的语言模型,这可能源于训练者对模型回答全面性的优化。而且,ChatGPT对多次调整输入措辞或尝试相同的输入指令也会很敏感。例如,给定一个问题,模型可以声称不知道答案或拒绝回答,但在指令稍作调整后,ChatGPT也会识别并回答。
第三、ChatGPT的强大能力依赖语料库、数据量的抓取和复杂的训练过程,训练成本和所需算力的成本都很高。如果数据库的收录内容质量不高或者数据量不够大,将会影响生成文本内容的质量和精细度,而且ChatGPT模型训练和优化过程较为复杂,需要专业的人员进行操作,训练成本和所需算力的成本都很高。最重要的是,ChatGPT模型依赖于大规模离线语料进行训练,往往不能充分接受并采用在线提供的即时信息,难以理解对话中提及的因果关系,也无法基于已有信息进行推测,这距离人类举一反三的能力相差较远。
(二)发展瓶颈:人工智能的安全性和伦理约束
表2GPT三代的对比
一、GPT初代:无监督的预训练结合有监督的模型微调
2018年,在自然语言处理领域(NLP)刚兴起时,OpenAI就推出的初代GPT,它的运行逻辑是:先通过无标签数据学习生成语言模型,并能够运用于一些与有监督任务无关的NLP任务中。此后再根据特定的下游任务进行有监督的微调,提高其泛化能力。常用的有监督任务主要有:
自然语言推理:判断两个句子的关系,是包含关系、矛盾关系或者中立关系;
分类:判断输入文本的指定类别。
在经过有监督的微调后,GPT-1的泛化能力会得到明显提升,且随着训练次数的增加,GPT-1的性能逐步提升。但是初代GPT仅仅使用了解码器部分,其transformer结构中对于词向量的学习能力得到发挥,能够实现较好地语言理解,适用于文本生成领域,但在通用语言和会话交流方面,还有较大的欠缺。
二、GPT-2:扩展了网络参数和数据集,进行多任务学习
相较于初代GPT,2019年推出的GPT-2整体上结构和设计没有变化,但学习目标是使用无监督的预训练模型作为有监督学习的任务,其核心逻辑在于让所有监督学习成为无监督语言模型的子集。换言之,GPT-2可以在数据量足够丰富且模型容量足够大时,通过训练语言模型就能够完成有监督学习的任务。实际训练中,GPT-2和GPT初代不同点在于:
(二)更庞大的网络参数:将transformer的层数增加到48,隐层(hiddenlayer)维度扩展到1600,实现了15亿的参数量;
(三)不再针对不同的任务建模微调:将机器翻译、自然语言推理、语义分析、关系提取等10类任务统一建模为一个分类任务,让模型在预训练中自己识别任务。
在性能方面,GPT-2可以在多个特定的语言场景下良好地完成NLP任务,除了语言理解能力外,还可以胜任翻译生成、故事编写、总结摘要等。这些能力基于海量数据和大量参数训练的词向量模型,不需要监督微调和额外的训练即可迁移,基本实现了元学习。同时,GPT-2能够让数据库中词向量包含的信息在多任务中通用,实现了信息脱离具体的NLP任务存在,也证明了随着模型容器和数据量扩充,GPT的无监督学习具有很大的提升空间。
三、GPT-3:海量参数,成就最强大的语言模型
四、InstructGPT和ChatGPT:更好地遵循用户意图、更少的虚假信息
相较于GPT-3,OpenAI在2022年初发布了InstructGPT。该语言模型在GPT-3的基础上进行微调,并在工作原理上增加了对齐研究,强化InstructGPT模型的语义理解;同时,通过“基于人类反馈的强化学习(RLHF)和监督学习”来提高输出质量。具体地,开发人员可以将训练划分为三个阶段:
第一阶段:冷启动阶段的策略模型。随机抽取用户提交的指令或问题,即prompt,并进行专业的人工标注,用这些指定的prompt和高质量答案共同微调GPT-3.5模型,使之初步具备理解输入指令或问题的能力。
第二阶段:训练回报模型。在第一阶段生成的众多结果中,根据结果质量由人工标注排序并作为训练数据,通过监督学习中的匹配排序训练回报模型对语言模型预训练的输出结果评分,回答质量越高,分数越高。
第三阶段:采用强化学习来增强预训练模型的能力。利用第二阶段学好的RM模型更新预训练模型的参数,不断从prompt库中抽取新命令,通过PPO(ProximalPolicyOptimization)算法生成回答后,循环执行第一到三阶段进行强化训练,最终鼓励LLM模型能够输出更高质量的回答。
虽然InstructGPT的参数量仅为13亿左右,相比于GPT-3缩小了100倍以上;但在遵循指令方面,能够更好地遵循用户意图,将有害的、不真实或者有偏差的信息输出最小化。在优化的模型上,ChatGPT基于InstructGPT进一步改进,在模型结构和训练流程上遵循上述方式,但收集和标注数据的方式上发生了变化。
InstructGPT模型需要先完成类似