ChatGPT为啥那么牛?语言模型足够大就会涌现出新能力

NLP中的语言模型,动辄涉及百亿参数,为何需要这么大的模型呢?近日,Google研究者发表了题为“大型语言模型的涌现能力”(EmergentAbilitiesofLargeLanguageModels)的论文,考察了以GPT-3为代表的语言模型,发现语言模型的表现并非随着模型规模增加而线性增长,而是存在临界点,只有当模型大到超过特定的临界值,才会涌现出较小的模型不具备的能力。语言模型的这种涌现能力意味着,大型语言模型可能进一步扩展语言模型的功能。

关键词:NLP,语言模型,涌现

郭瑞东|作者

梁金|审校

邓一雪|编辑

1.语言模型的涌现能力

经过海量数据训练后,语言模型可以被“提示”执行任意的任务。例如,将一个英语短语翻译成斯瓦希里语的任务,可以被重新定义为下一个单词的预测:‘人工智能’的法语翻译是......?语言模型代表了一种范式转变,从训练基于特定任务的模型,到训练可执行多任务的模型。例如,GPT-3表明,语言模型可以成功地进行两位数乘法,即使它们没有被明确地训练这样做。

然而,这种执行新任务的能力只发生在具有一定数量的参数、并在足够大的数据集上进行训练的模型中。这样的涌现现象在复杂系统中普遍出现。例如当生态系统的复杂性降低到阈值之下时,系统的稳定性会显著降低。最早指出该现象的,是菲利普·安德森的经典论文“多者异也”。涌现指的是一个研究对象表现出组成它的部分要素本身所不具备的特性。例如,这些行为或能力只有通过各个部分的相互作用才能显现出来。

该研究中,作者对语言模型的涌现能力给出了如下定义:“如果一种能力不存在于较小的模型中,而存在于较大的模型中,那么这种能力就是涌现出来的。”可以通过不同的方式对模型大小进行测量,包括训练时计算量(FLOPs)、参数数量或训练数据大小。图1显示了涌现能力的三个例子:运算能力、参加大学水平的考试(多任务NLU),以及识别一个词的语境含义的能力。在每种情况下,语言模型最初表现很差,并且与模型大小基本无关,但当模型规模达到一个阈值时,语言模型的表现能力突然提高。

图1.在多步计算、多任务语言理解和语境中的词汇含义三任务上,语言模型的准确度只有当模型规模(训练时的FLOPs)超过一个阈值时才突然提高。

另一类涌现能力包括提示策略(promptingstrategy)以增强语言模型的能力。这些策略之所以出现,是因为较小的模型无法成功地使用这些策略,只有足够大的语言模型才可以。例如“思维链提示”(chain-of-thoughtprompting),其中模型被提示在给出最终答案之前生成一系列中间步骤。

图2A总结了思维链提示ーー它显著提高了大型语言模型的推理能力,使它们能够解决需要抽象推理的多步骤问题。如图2B所示,在一个小学数学问题的基准上,思维链提示比直接返回最终答案要差,直到模型大小达到一个临界值(1022FLOPs),之后模型的表现会好得多。

图2.(A)思维链提示的案例,(B)模型大小和思维链提示带来的准确性折线图。

研究者发现,语言模型的涌现能力是一个普遍现象而非特例,文中总结了GPT-3模型具有的137项涌现能力,对于更传统的NLP基准模型,例如BIG-Bench,其具有的涌现能力也包括67项。图3展示了不同模型在多种任务上,准确性和模型大小都呈现相变(phasetransition)。

图3.模型大小和各项任务准确性之间的折线图

论文地址:

EmergentAnalogicalReasoninginLargeLanguageModels

图4.逻辑推断问题示例

图5.在生成及多选这两类问题上,需要运用的规则越多,GPT-3的表现就越优于人类

语言模型之所以必须足够大,才能进行类比推理,可以用解决问题需要的规则必须存储在足够多的参数中加以解释。例如需要同时使用三条规则进行类比的问题,就需要模型的参数能同时存储三条规则。然而语言模型的类比能力完全来自于预测人类文本,语言充满了类比,因此准确地预测自然语言可能需要一种能力。但是我们没有理由假设同样的系统,如果没有人类产生的输入,会自发形成类比式的思维能力。在某种程度上,大型语言模型捕获了成年人类的类比能力,它们的类比能力从根本上来说寄生在人类的自然智力上。

语言模型的涌现能力,也并非全然是好事,语言模型带来的社会问题,例如歧视女性、不文明用语等,也具有涌现的特性。即当模型较小时不会出现,只有模型足够大时才会呈现。

2.大型语言模型的未来和限制

可以肯定的是,在可预见的未来,大型语言模型仍将是机器学习研究的主流。语言模型在零次学习(zeroshotlearning)上的涌现能力,已让它们得以进入实际应用领域(例如chatGPT),并在自然语言处理研究领域之外有许多新的应用。例如,语言模型通过提示将自然语言指令转换为机器人可执行操作的命令,或促进多模态推理(根据文字作画)。为此,我们需要继续研究它们的涌现能力和局限性,建立对涌现能力的一般性理解(目前缺少令人信服的解释),并探索未实现的潜力及最终极限。

涌现能力具有重要的科学意义,如果涌现能力是没有尽头的,那么只要模型足够大,强AI的出现就是必然的。对现有语言模型涌现特征的研究发现,语言模型的表现和模型大小之间的关系是不可线性外推的,有理由相信,随着模型大小的增加,模型将会变得更加鲁棒。

不同类型的任务中,具有涌现特征的比例相差巨大(图6),也不存在明确的趋势表明哪些类型的任务是最具涌现特征的。然而语言模型在逻辑推理和因果推断中,具有涌现特征的比例最低,可能反映了语言模型并没有真正把握因果关系。

图6.在BIGBench模型中,在各类任务中,具有涌现特征(蓝色)、性能随模型大小线性增长(浅黄色)、以及所有模型都无法超过随机水平(橙红色)的任务个数。

在论文中,研究人员讨论了语言模型的涌现能力面临的限制,包括硬件和数据瓶颈。有些能力甚至可能不会随着模型规模变大而出现,例如在远离训练数据集分布的任务上。此外,一旦某种能力出现,涌现特征并不能保证它会随着规模的扩大而继续提高。

随着机器学习社区朝着创建更大的语言模型的方向发展,人们越来越担心大语言模型的研究和开发将集中在少数几个拥有财政和计算资源来训练和运行这些模型的组织中。通过对特定任务数据集的小型模型进行微调,可以使用小模型替代大语言模型。该研究的作者指出:一旦一种能力被发现,进一步的研究可能会使这种能力适用于小尺度模型。随着我们继续训练越来越大的语言模型,降低涌现能力发生相变的门槛,对于让社区更广泛地获得这种能力的研究将变得更加重要。

原标题:《ChatGPT为啥那么牛?语言模型足够大就会涌现出新能力》

THE END
1.GPT模型微调教程:打造您专属的ChatGPT模型chatgpt微调通过前面对大语言模型的介绍,我们了解到,其实像目前已经发布的一些主流大语言模型如OpenAI公司发布的的GPT-3.5、GPT-4、Google发布的Bard和PaLM 2多模态模型、Anthropic最近推出的Claude 2、亦或是国内清华大学联合智普AI发布的ChatGLM 2等都是属于通用型的 LLM 模型,基于海量的互联网数据进行训练推理而来,因为涉及领https://blog.csdn.net/FrenzyTechAI/article/details/131918889
2.一文读懂什么是AIGCChatGPT大模型确实,在短短的6个月时间里,AIGC、ChatGPT、大模型等新词汇一下成为媒体热词,加上所谓“人工智能将取代你的工作”之类的焦虑,张栋伟觉得有必要写这样一篇科普。 本文将力求简单化的说明这次人工智能浪潮带来的新词汇和它的意义,带你一文读懂什么是AIGC、ChatGPT、大模型。 https://www.ofweek.com/ai/2023-05/ART-201700-8500-30596590.html
3.chatGPT:什么是微调?怎样微调chatGPT模型?卢悦丹怎样微调chatGPT模型? 什么是微调? 这是官方的定义: 微调通过训练比提示中更多的示例来改进小样本学习,可以在大量任务中取得更好的结果。 其实在使用chatGPT时,我们也有一些输入也有调整效果,比如这个输入案例: 前面的一系列对话,其实是输入的例子,最后一个则是等待chatGPT的返回,通过前面的对话例子,chatGPT会更https://www.shangyexinzhi.com/article/7233721.html
4.ChatGPT是什么语言模型?ChatGPT是什么语言模型?在自然语言处理领域中,大型语言模型一直是一个备受关注的研究方向,GPT-3作为当前最先进的语言模型之一,其性能和应用场景已经被广泛研究和应用。ChatGPT作为基于GPT-3.5架构的大型语言模型,其性能和应用场景将是我们研究的重点。 一、ChatGPT的技术特点 https://www.gaodun.com/xinzhiye/1433270.html
5.火爆全球的ChatGPT到底是什么?拥有哪些超能力一、什么是ChatGPT ChatGPT是一种基于自然语言处理技术的模型,它是OpenAI研究团队于2019年发布的一款通用的预训练语言模型。这个模型的特点是可以像人类一样进行对话,是一种人机交互的方式。 ChatGPT是一种基于深度学习的模型,它使用了大规模的文本数据集来进行预训练。这个模型可以理解自然语言的语义和语法,并且可以用https://chuangke.aliyun.com/info/1035438.html
6.是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现但这次以ChatGPT为代表的一众大语言模型,突然突破了这个门槛,变得非常“聪明”。当然背后的原因有很多,比如自监督学习、Fine-tuning策略等等,但有一个重要的底层变化——大语言模型的“涌现”(Emergent)现象,就是说一些业界从未想象到的能力,例如基础的社会知识、上下文学习(ICL)、推理(CoT)等等,在训练参数和数据量https://36kr.com/p/2210585582301824
7.十分钟理解ChatGPT的技术逻辑及演进(前世今生)2022年11月30日,OpenAI推出ChatGPT模型,并提供试用,全网火爆。见:AI-001-火爆全网的聊天机器人ChatGPT能做什么 3、GPT之T-Transformer(2017) 在第1小节中,我们说到Transformer是没有合适的翻译的。 但是Transfomer?却是GPT(Generative Pre-Training Transfomer)中最重要、最基础的关键词。 https://www.51cto.com/article/743197.html
8.ChatGPT原理理解和结构解读〖前言〗问了200+个问题后,终于完全搭建起来对Chat@GPT本身的原理理解和结构了解,形成的理解文件90%的内容都是他生成的。但是结构化这篇文章以及深入时刻,是自己完成的。今后的学习和工作可能都需要和他来共同完成了。 1 从概率角度理解生成式模型原理 https://www.jianshu.com/p/0628b1bd2c48
9.llm模型和chatGPT的区别LLM(Large Language Model)是指大型语言模型,它们是一类使用深度学习技术构建的自然语言处理(NLP)模型。LLM模型可以处理各种语言任务,如文本生成、文本分类、机器翻译等。目前,有许多不同的LLM模型,如BERT、GPT、T5等。 ChatGPT是一种基于GPT(Generative Pre-trained Transformer)模型的聊天机器人。GPT模型是一种基于Trahttps://www.elecfans.com/d/3841650.html
10.chatgpt背后的算法是基于一个transfotmer,通过基于自身反馈的强化学习来chatgpt背后的算法是基于一个transfotmer,通过基于自身反馈的强化学习来进行模型训练 答案:答案:不准确。ChatGPT背后的算法是基于一个名为GPT(Generative Pre-trained Transfo 点击查看完整答案手机看题 你可能感兴趣的试题 问答题 男62岁 因气温骤降心前区压榨性疼痛 唇甲青紫 心痛如刺 答案:答案:根据您描述的http://www.ppkao.com/kstkai/daan/c5832b0df93141779498dfcd9f6b8378