如何测试ChatGPT的语义理解与常识推理水平?——兼谈大语言模型时代语言学的挑战与机会

作者:袁毓林;来自:《语言战略研究》

【关键词】ChatGPT;大语言模型;新图灵测试;威诺格拉德模式挑战;WinoGrande数据集

一、引言:大语言模型给语言学家带来的挑战与机会

照理说,语言学家应该是欢迎语言技术的进步与飞跃发展的,但是当人工智能聊天机器人ChatGPT风靡全网、风光无限时,不少语言学家又感到危机空前,因为ChatGPT等大语言模型(largelanguagemodel,LLM)在语言理解与生成方面功能强大,并且几乎绕开了当代主流的语言学理论与方法(详见Piantadosi2023)。这于有形无形中都是在向语言学施压。对此,比较敏感的语言学者是心怀戒备与恐惧的。其实,十几年前,“没有语言学的计算语言学”就已成为许多语言学家的心头之痛;对此,国际自然语言处理学界也大声呼吁过:让语言学重新回到计算语言学中,并且成为自然语言处理的支撑性学科(详见Wintner2009)。只是彼时的自然语言处理系统水平不太高,还不足以显示语言学对于语言处理技术几无用处。现在情况不一样了,能够聊天、答问、写作甚至解数学题、编程序、写代码的ChatGPT就摆在大家面前,没有办法视而不见!怎么办?一种乐观主义的想法是“天生我材必有用”,ChatGPT等大语言模型既然会给语言学造成危机,那么一定也会给语言学带来某种机会!是的,危中必有机,天无绝人之路;在大语言模型时代,语言学一定是挑战与机会并存的,一切端看我们怎么应对。

二、机器智能水平的语言理解测试和分布式语义学

笔者从2006年至2018年,先后指导了两届博士后和两届博士研究生研究这个问题,经过10多年的不懈努力,初步解决了这类难题,发表了一系列论文(陈振宇,等2009,2010;陈振宇,袁毓林2010;袁毓林,等2010;卢达威,袁毓林2019),研制出了效率较高的“汉语亲属关系的自动推理系统”。现在,这类亲属关系问题基本上难不倒ChatGPT。下面是笔者跟ChatGPTplus(下同)关于亲属关系推理的问答记录(2023–06–21):

ChatGPT对(1)(3)两题的回答相当不错,但对(2)的回答不尽如人意,因为它对“婶婶”的理解不够正确(“丈夫的妹妹”是“小姑子”,“丈夫的兄弟的妻子”是“妯娌”;“父亲的兄弟的妻子”才是“婶婶”,辈分上差了整整一辈呢!)。

这就是大语言模型表面上能够理解人类自然语言的意义的技术奥秘所在。那么,能不能就此说人工智能语言模型已经真正理解人类自然语言,并且真正具有人类智能呢?我们语言学还能做些什么呢?这就要看这种人工智能系统能不能通过有关的智能水平测试。为什么?因为要从理论上排除碰巧的可能,机器智能水平的测试向来是用语言理解水平作为标杆的。④为了方便大家了解原委,下面简单介绍图灵测试及其替换版本。

三、从“图灵测试”到“新图灵测试”

四、从“威诺格拉德模式挑战”到“WinoGrande数据集”

五、ChatGPT如何回应语义理解与常识推理挑战?

总之,ChatGPT在语义理解和常识推理能力方面虽然并非完美无缺,但是其正确率和流畅度的确达到了令人惊讶的程度。

六、结语:机器到底能不能理解自然语言?

(一)机器不可能像人一样具身地理解自然语言

具身模拟动用的大脑部位,就是我们大脑专门用于跟世界直接打交道的相同部位。当我们模拟观察,我们用的就是大脑中用来观察事物的部位;当我们模拟做动作,大脑中用来指挥肌肉运动的部位也跟着活跃起来。这就是说,模拟的意思就是在我们的脑海中创造出先前经历的回响,将大脑在先前感知和运动经历的活跃模式,以强度有所减弱的共鸣形式再现出来。我们用自己的大脑模拟感知与动作,但真正的感知与动作并没有发生。(Bergen2012:17)

显然,机器没有具身模拟这种认知能力,所以不可能像人一样真切地创造和理解意义,不能感受到语言所表达或激活的有关事物的颜色、形状、气味、滋味、声音等感觉特征。正如米切尔(Mitchell2021)所指出的,要想理解人类的语言,就需要理解这个世界,而只能接触到语言的机器无法获得这样的理解能力。我们来思考一下“跑车超过了卡车,是因为它的速度更慢”这句话是什么意思。首先你需要知道“跑车”和“卡车”是什么,而且需要知道车辆可以互相“超车”;从更基本的层面来看,车辆是存在于世界上、能够与之互动的物体,且由人类驾驶。据此,我们认为,要求机器跟人一样具身地理解自然语言,其实本身就是不合理和不公平的;这就像要求飞机必须像鸟儿那样扇动翅膀来飞行一样,是不近情理的。

(二)语言学家应积极参与人工智能研究

接下来另一个不便开口的问题可能是:在大语言模型时代,语言学会不会像钉碗、补锅、修伞之类的手工老行当一样,在新技术和新产品面前自行消失呢?我们认为,消失应该是不会的!但是,变化和革新是必须的!那么,语言学家到底可以做些什么呢?答案也许是:拥抱并适应新技术带来的变化,主动地了解新技术的成效、不足及其背后的原理,更加精细地研究语言的结构形式和语义解释规律,至少可以为人工智能的语言理解测试集的设计提供基本原则、语法规律和实例分析数据;比如,威诺格拉德模式挑战之类的测试集,语言学家完全是有能力构建的。这比空谈人工智能系统能不能理解人类自然语言要有意义得多。

记得美国第35任总统约翰·肯尼迪说过:“不要问国家能为你做什么,而要问自己能为国家做些什么。”在当下语境中,我们则要说:“不要问时代和社会真的会不会抛弃语言学,而要问语言学真的能为时代和社会做些什么!”

七、注释与参考文献

地址:北京市海淀区中关村南大街27号中央民族大学理工楼516室(100081)

THE END
1.精炼学术言辞100个简短而富有洞察力的句子探索总结来说,100个简短好的行文既需要精准又需丰富,它不仅能让文章更加具有吸引力,而且还能提高文章整体质量,为读者提供更全面的知识视角。这也是为什么,在任何高水平的学术论文中,都会看到大量使用这样的表达方式。而作为学生或研究人员,我们应该学会运用这样的技巧,以便更有效地进行交流与学习。 https://www.ugbwsmvy.cn/ming-ju/353302.html
2.彰显技术能力的词语理想股票技术论坛这些词语用于彰显个人或团队的技术能力,表达了高超的技术水平、卓越的专业素养和出色的实践能力。它们代表着技术领域的佼佼者,拥有深厚的专业知识和丰富的实践经验,能够解决各种技术难题,推动技术进步和创新。 ,理想股票技术论坛https://www.55188.com/tag-thread-8975683-1.html
3.小学生爱国知识竞赛(通用9篇)65. 《京都议定书》制定的目标是将大气中的“温室气体”含量稳定在一个适当的水平吗? A. 是B. 否 66. 海豚可以让大脑一半休息,另一半保持清醒吗? A. 是B. 否 67. 公奶牛也能产奶吗? A. 是B. 否 68. “美轮美奂”这个成语只能专门用来形容建筑物吗? https://www.360wenmi.com/f/filebwr6u66i.html
4.形容学术水平高一般怎么说?电动势的正方向规定为从低电位指向高电位,所以测量时电压表应正极接电源负极、而电压表负极接电源的正极。答案解析:错。电动势的正方向规定为从低电位指向高电位,电动势的方向与流出电流的方向一致,测量时电压表的正极应接电源的正极而电压表的负极接电源的负极。博学https://www.shuashuati.com/ti/9283c7b3f9ac414db9b90398226f0e2f.html
5.如何提炼好小标题,让人眼前一亮?(四)常用形容词 热情、勇敢、伟大、聪明、优秀、清楚、熟练、生动、全部、勤奋、坚固、细心、坚强、认真、美丽、忠诚、明确、具体、淡泊、壮观。 三、三字类词汇 (一)思想认识 类全局观、世界观、大局观、大视野、新形势、新机遇、新气象、观大势、举旗帜、狼来了、谋共识、强信心、生命线、重要性、必要性、特https://www.360doc.cn/article/46601607_1110258325.html
6.词汇手册翻译完整整理版5.如果你忽视句型,你的翻译水平就不可能提高(impossibleNov. 231.这本字典是给小孩子用的,不适合你(intend 2.只有抓住每一个机会,你才能成功(Only 3.他不顾个人安危,执意留守在岗位上(insist 4.除非被邀请发言,否则在会上你应该保持沉默(invite 5.因特网可以使我们不断了解国内外发生的事情(informNov. 241.https://www.yxfsz.com/view/1394757421113065473
7.雅思写作和口语必备的40个高频形容词,让你轻松提升英语水平雅思:对写作和口语非常有用的40个高频形容词以下是40个在雅思写作和口语中非常常用的高频形容词,通过学习这些形容词,可以丰富自己的词汇量,提高表达能力。1.different不同的2.used二手的3.important重要的4.every…… 1雅思:对写作和口语非常有用的40个高频形容词 https://news.koolearn.com/kaopei/yasi/144166/
8.形容人学术水平高形容人学术水平高 形容一个人学术水平高,可以使用以下一些词语和短语: 1. 博学多才:表示这个人的知识广博,能够涉猎多个学科领域。 2. 知识渊博:强调这个人的学识深厚,对各种知识有广泛的了解和掌握。 3. 学富五车:形容一个人的学问非常丰富,知识面广阔。 4. 才华横溢:表示这个人在某一领域具有出色的才能和https://wenku.baidu.com/view/2cdcb3a02c60ddccda38376baf1ffc4fff47e240.html
9.平民如何玩好率土这款游戏?从萌新到大神,我只能教你这么多了从收费到配将水平,四个字形容:鱼龙混杂 总结:率土对新人很不友好,但是确实是一款很好玩的游戏,需要花费大量的时间。每个玩家有每个玩家的玩法,拒绝攀比,也不要焦虑,鱼塘局就挺好玩的。 我是江南十三画生,2023年争取给大家写更多有价值的攻略,希望能够帮助到大家 https://ds.163.com/article/63d79546c5a32500015413ef/
10.夸奖摄影水平高的句子接亲网11.大师您真是谦虚了,这么精彩的荷花照片怎么能是随手一拍呢? 12.您的后期水平厉害,这强烈的对比度好像表达了社会的两极分化! 13.大师的作品从来都不用后期,追求佛系自然、天地合一的精神,难得难得。 14.这张照片的构图和精彩,突破了传统构图的枷锁,是自由意识的象征。 https://www.jieqinwang.com/baike/106364.html
11.形容计算机专业好句子,形容专业水平高的词句4. 形容很专业 很厉害的词语 1、登峰造极 [ dēng fēng zào jí ] 比喻达到极高的水平。 造:到达。极:最高点。 出处:南朝·宋·刘义庆《世说新语·文学》:“不知便可登峰造极否?” 2、炉火纯青e799bee5baa6e58685e5aeb931333366306434 [ lú huǒ chún qīng ] 相传道家炼丹,到炉子里的火发出纯青https://blog.csdn.net/weixin_39606799/article/details/118750588
12.《汉语水平词汇与汉字等级大纲》形容词体系研究以词频统计为依据,兼顾专家干预而制定的《汉语水平词汇与汉字等级大纲》(简称《HSK大纲》)是对外汉语词汇教学的指导文件,共收词8822个,这些词大致反映了汉语基本词汇的面貌。全面考察这样一个词汇范围内的词义系统性,对于对外汉语词汇的教学与研究具有重要的实际意义,但目前为止还没有人真正做过。本文以语义场理论为基https://wap.cnki.net/touch/web/Dissertation/Article/-2005037396.html
13.中药学毕业论文汇总十篇在此期间,除了指导教师定期检查督导每个学生的研究进展情况外,学生应主动向指导教师汇报毕业论文的情况,及时将遇到的困难和问题反映给指导老师,尽快得到正确的帮助建议。再次,指导老师对学生的研究成果给予初步的基本评价。最后,该成绩也是每一个学生能够顺利毕业的必要成绩之一。在指导老师认为研究成果达到毕业论文的水平后https://zhttx.xueshu.com.cn/haowen/5889.html
14.形容专业水平高的句子(优选10句)1、他对文学领域的了解非常深刻,是一位水平极高的文学爱好者。 2、这位科学家的先进研究成果,标志着他的专业技能达到了极高的水平。 3、他毕业于一流的经济学院,累积了丰富的专业知识,使他成为了一位高水平的经济学家。 4、这位音乐家的演奏技巧得到了众多专家的高度评价,他的专业水平非常突出。 https://www.guzuci.com/read-1150.html
15.他是美国眼中最可怕的中国人,隐身55年,以一己之力扭转了全世界的美苏的氢弹研究水平远在中国之上, 其氢弹技术已登峰造极, 此后,美苏肯定会采取措施, 限制其他国家进行核试验, 那么中国必须抢在美苏采取措施前, 让本国氢弹技术水平和美苏持平。 于是他马上向中央提出: 加速中国的核试验。 之后在他的领导下, 我国多次进行核试验, https://www.meipian.cn/1vezl464
16.三年级顺利拿下FCE,备考分享实操篇之前咱们我分析过KET和PET对标的英语学习水平,也就是孩子学到什么水平可以考KET和PET?可以戳过往链接了解▼ 孩子英语学到什么标准可以考KET和PET 今天再简单说说FCE的对标水平:孩子英语学习到什么程度可以尝试备考FCE呢? 01. 剑桥FCE语言能力标准要求 剑桥FCE 考试为First Certificate in English(第一英语认证)的简称https://m.xiaohuasheng.cn/blog/1f1c48526f9fbb9e
17.关于面试常见问题及回答技巧(汇总5篇)怎么设置薪资底线呢?这个底线基于市场水平和个人能力考虑:如果个人能力突出,优势明显,那这个底线可以稍微高于这一岗位的市场水平;如果个人能力一般,优势也不太明显,可以在市场水平的上下浮动,或与市场水平持平;如果自认水平比较差,但有很大的进步空间,那可以低于市场水平,入职后通过努力再加薪。当然,如果觉得这个机会很好https://www.liuxue86.com/a/4370016.html