如何测试ChatGPT的语义理解与常识推理水平?——兼谈大语言模型时代语言学的挑战与机会

作者:袁毓林;来自:《语言战略研究》

【关键词】ChatGPT;大语言模型;新图灵测试;威诺格拉德模式挑战;WinoGrande数据集

一、引言:大语言模型给语言学家带来的挑战与机会

照理说,语言学家应该是欢迎语言技术的进步与飞跃发展的,但是当人工智能聊天机器人ChatGPT风靡全网、风光无限时,不少语言学家又感到危机空前,因为ChatGPT等大语言模型(largelanguagemodel,LLM)在语言理解与生成方面功能强大,并且几乎绕开了当代主流的语言学理论与方法(详见Piantadosi2023)。这于有形无形中都是在向语言学施压。对此,比较敏感的语言学者是心怀戒备与恐惧的。其实,十几年前,“没有语言学的计算语言学”就已成为许多语言学家的心头之痛;对此,国际自然语言处理学界也大声呼吁过:让语言学重新回到计算语言学中,并且成为自然语言处理的支撑性学科(详见Wintner2009)。只是彼时的自然语言处理系统水平不太高,还不足以显示语言学对于语言处理技术几无用处。现在情况不一样了,能够聊天、答问、写作甚至解数学题、编程序、写代码的ChatGPT就摆在大家面前,没有办法视而不见!怎么办?一种乐观主义的想法是“天生我材必有用”,ChatGPT等大语言模型既然会给语言学造成危机,那么一定也会给语言学带来某种机会!是的,危中必有机,天无绝人之路;在大语言模型时代,语言学一定是挑战与机会并存的,一切端看我们怎么应对。

二、机器智能水平的语言理解测试和分布式语义学

笔者从2006年至2018年,先后指导了两届博士后和两届博士研究生研究这个问题,经过10多年的不懈努力,初步解决了这类难题,发表了一系列论文(陈振宇,等2009,2010;陈振宇,袁毓林2010;袁毓林,等2010;卢达威,袁毓林2019),研制出了效率较高的“汉语亲属关系的自动推理系统”。现在,这类亲属关系问题基本上难不倒ChatGPT。下面是笔者跟ChatGPTplus(下同)关于亲属关系推理的问答记录(2023–06–21):

ChatGPT对(1)(3)两题的回答相当不错,但对(2)的回答不尽如人意,因为它对“婶婶”的理解不够正确(“丈夫的妹妹”是“小姑子”,“丈夫的兄弟的妻子”是“妯娌”;“父亲的兄弟的妻子”才是“婶婶”,辈分上差了整整一辈呢!)。

这就是大语言模型表面上能够理解人类自然语言的意义的技术奥秘所在。那么,能不能就此说人工智能语言模型已经真正理解人类自然语言,并且真正具有人类智能呢?我们语言学还能做些什么呢?这就要看这种人工智能系统能不能通过有关的智能水平测试。为什么?因为要从理论上排除碰巧的可能,机器智能水平的测试向来是用语言理解水平作为标杆的。④为了方便大家了解原委,下面简单介绍图灵测试及其替换版本。

三、从“图灵测试”到“新图灵测试”

四、从“威诺格拉德模式挑战”到“WinoGrande数据集”

五、ChatGPT如何回应语义理解与常识推理挑战?

总之,ChatGPT在语义理解和常识推理能力方面虽然并非完美无缺,但是其正确率和流畅度的确达到了令人惊讶的程度。

六、结语:机器到底能不能理解自然语言?

(一)机器不可能像人一样具身地理解自然语言

具身模拟动用的大脑部位,就是我们大脑专门用于跟世界直接打交道的相同部位。当我们模拟观察,我们用的就是大脑中用来观察事物的部位;当我们模拟做动作,大脑中用来指挥肌肉运动的部位也跟着活跃起来。这就是说,模拟的意思就是在我们的脑海中创造出先前经历的回响,将大脑在先前感知和运动经历的活跃模式,以强度有所减弱的共鸣形式再现出来。我们用自己的大脑模拟感知与动作,但真正的感知与动作并没有发生。(Bergen2012:17)

显然,机器没有具身模拟这种认知能力,所以不可能像人一样真切地创造和理解意义,不能感受到语言所表达或激活的有关事物的颜色、形状、气味、滋味、声音等感觉特征。正如米切尔(Mitchell2021)所指出的,要想理解人类的语言,就需要理解这个世界,而只能接触到语言的机器无法获得这样的理解能力。我们来思考一下“跑车超过了卡车,是因为它的速度更慢”这句话是什么意思。首先你需要知道“跑车”和“卡车”是什么,而且需要知道车辆可以互相“超车”;从更基本的层面来看,车辆是存在于世界上、能够与之互动的物体,且由人类驾驶。据此,我们认为,要求机器跟人一样具身地理解自然语言,其实本身就是不合理和不公平的;这就像要求飞机必须像鸟儿那样扇动翅膀来飞行一样,是不近情理的。

(二)语言学家应积极参与人工智能研究

接下来另一个不便开口的问题可能是:在大语言模型时代,语言学会不会像钉碗、补锅、修伞之类的手工老行当一样,在新技术和新产品面前自行消失呢?我们认为,消失应该是不会的!但是,变化和革新是必须的!那么,语言学家到底可以做些什么呢?答案也许是:拥抱并适应新技术带来的变化,主动地了解新技术的成效、不足及其背后的原理,更加精细地研究语言的结构形式和语义解释规律,至少可以为人工智能的语言理解测试集的设计提供基本原则、语法规律和实例分析数据;比如,威诺格拉德模式挑战之类的测试集,语言学家完全是有能力构建的。这比空谈人工智能系统能不能理解人类自然语言要有意义得多。

记得美国第35任总统约翰·肯尼迪说过:“不要问国家能为你做什么,而要问自己能为国家做些什么。”在当下语境中,我们则要说:“不要问时代和社会真的会不会抛弃语言学,而要问语言学真的能为时代和社会做些什么!”

七、注释与参考文献

地址:北京市海淀区中关村南大街27号中央民族大学理工楼516室(100081)

THE END
1.GPT模型微调教程:打造您专属的ChatGPT模型chatgpt微调通过前面对大语言模型的介绍,我们了解到,其实像目前已经发布的一些主流大语言模型如OpenAI公司发布的的GPT-3.5、GPT-4、Google发布的Bard和PaLM 2多模态模型、Anthropic最近推出的Claude 2、亦或是国内清华大学联合智普AI发布的ChatGLM 2等都是属于通用型的 LLM 模型,基于海量的互联网数据进行训练推理而来,因为涉及领https://blog.csdn.net/FrenzyTechAI/article/details/131918889
2.一文读懂什么是AIGCChatGPT大模型确实,在短短的6个月时间里,AIGC、ChatGPT、大模型等新词汇一下成为媒体热词,加上所谓“人工智能将取代你的工作”之类的焦虑,张栋伟觉得有必要写这样一篇科普。 本文将力求简单化的说明这次人工智能浪潮带来的新词汇和它的意义,带你一文读懂什么是AIGC、ChatGPT、大模型。 https://www.ofweek.com/ai/2023-05/ART-201700-8500-30596590.html
3.chatGPT:什么是微调?怎样微调chatGPT模型?卢悦丹怎样微调chatGPT模型? 什么是微调? 这是官方的定义: 微调通过训练比提示中更多的示例来改进小样本学习,可以在大量任务中取得更好的结果。 其实在使用chatGPT时,我们也有一些输入也有调整效果,比如这个输入案例: 前面的一系列对话,其实是输入的例子,最后一个则是等待chatGPT的返回,通过前面的对话例子,chatGPT会更https://www.shangyexinzhi.com/article/7233721.html
4.ChatGPT是什么语言模型?ChatGPT是什么语言模型?在自然语言处理领域中,大型语言模型一直是一个备受关注的研究方向,GPT-3作为当前最先进的语言模型之一,其性能和应用场景已经被广泛研究和应用。ChatGPT作为基于GPT-3.5架构的大型语言模型,其性能和应用场景将是我们研究的重点。 一、ChatGPT的技术特点 https://www.gaodun.com/xinzhiye/1433270.html
5.火爆全球的ChatGPT到底是什么?拥有哪些超能力一、什么是ChatGPT ChatGPT是一种基于自然语言处理技术的模型,它是OpenAI研究团队于2019年发布的一款通用的预训练语言模型。这个模型的特点是可以像人类一样进行对话,是一种人机交互的方式。 ChatGPT是一种基于深度学习的模型,它使用了大规模的文本数据集来进行预训练。这个模型可以理解自然语言的语义和语法,并且可以用https://chuangke.aliyun.com/info/1035438.html
6.是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现但这次以ChatGPT为代表的一众大语言模型,突然突破了这个门槛,变得非常“聪明”。当然背后的原因有很多,比如自监督学习、Fine-tuning策略等等,但有一个重要的底层变化——大语言模型的“涌现”(Emergent)现象,就是说一些业界从未想象到的能力,例如基础的社会知识、上下文学习(ICL)、推理(CoT)等等,在训练参数和数据量https://36kr.com/p/2210585582301824
7.十分钟理解ChatGPT的技术逻辑及演进(前世今生)2022年11月30日,OpenAI推出ChatGPT模型,并提供试用,全网火爆。见:AI-001-火爆全网的聊天机器人ChatGPT能做什么 3、GPT之T-Transformer(2017) 在第1小节中,我们说到Transformer是没有合适的翻译的。 但是Transfomer?却是GPT(Generative Pre-Training Transfomer)中最重要、最基础的关键词。 https://www.51cto.com/article/743197.html
8.ChatGPT原理理解和结构解读〖前言〗问了200+个问题后,终于完全搭建起来对Chat@GPT本身的原理理解和结构了解,形成的理解文件90%的内容都是他生成的。但是结构化这篇文章以及深入时刻,是自己完成的。今后的学习和工作可能都需要和他来共同完成了。 1 从概率角度理解生成式模型原理 https://www.jianshu.com/p/0628b1bd2c48
9.llm模型和chatGPT的区别LLM(Large Language Model)是指大型语言模型,它们是一类使用深度学习技术构建的自然语言处理(NLP)模型。LLM模型可以处理各种语言任务,如文本生成、文本分类、机器翻译等。目前,有许多不同的LLM模型,如BERT、GPT、T5等。 ChatGPT是一种基于GPT(Generative Pre-trained Transformer)模型的聊天机器人。GPT模型是一种基于Trahttps://www.elecfans.com/d/3841650.html
10.chatgpt背后的算法是基于一个transfotmer,通过基于自身反馈的强化学习来chatgpt背后的算法是基于一个transfotmer,通过基于自身反馈的强化学习来进行模型训练 答案:答案:不准确。ChatGPT背后的算法是基于一个名为GPT(Generative Pre-trained Transfo 点击查看完整答案手机看题 你可能感兴趣的试题 问答题 男62岁 因气温骤降心前区压榨性疼痛 唇甲青紫 心痛如刺 答案:答案:根据您描述的http://www.ppkao.com/kstkai/daan/c5832b0df93141779498dfcd9f6b8378