如何测试ChatGPT的语义理解与常识推理水平？——兼谈大语言模型时代语言学的挑战与机会|chatgpt版本怎么测_算命

作者：袁毓林；来自：《语言战略研究》

【关键词】ChatGPT；大语言模型；新图灵测试；威诺格拉德模式挑战；WinoGrande数据集

一、引言：大语言模型给语言学家带来的挑战与机会

照理说，语言学家应该是欢迎语言技术的进步与飞跃发展的，但是当人工智能聊天机器人ChatGPT风靡全网、风光无限时，不少语言学家又感到危机空前，因为ChatGPT等大语言模型（largelanguagemodel，LLM）在语言理解与生成方面功能强大，并且几乎绕开了当代主流的语言学理论与方法（详见Piantadosi2023）。这于有形无形中都是在向语言学施压。对此，比较敏感的语言学者是心怀戒备与恐惧的。其实，十几年前，“没有语言学的计算语言学”就已成为许多语言学家的心头之痛；对此，国际自然语言处理学界也大声呼吁过：让语言学重新回到计算语言学中，并且成为自然语言处理的支撑性学科（详见Wintner2009）。只是彼时的自然语言处理系统水平不太高，还不足以显示语言学对于语言处理技术几无用处。现在情况不一样了，能够聊天、答问、写作甚至解数学题、编程序、写代码的ChatGPT就摆在大家面前，没有办法视而不见！怎么办？一种乐观主义的想法是“天生我材必有用”，ChatGPT等大语言模型既然会给语言学造成危机，那么一定也会给语言学带来某种机会！是的，危中必有机，天无绝人之路；在大语言模型时代，语言学一定是挑战与机会并存的，一切端看我们怎么应对。

二、机器智能水平的语言理解测试和分布式语义学

笔者从2006年至2018年，先后指导了两届博士后和两届博士研究生研究这个问题，经过10多年的不懈努力，初步解决了这类难题，发表了一系列论文（陈振宇，等2009，2010；陈振宇，袁毓林2010；袁毓林，等2010；卢达威，袁毓林2019），研制出了效率较高的“汉语亲属关系的自动推理系统”。现在，这类亲属关系问题基本上难不倒ChatGPT。下面是笔者跟ChatGPTplus（下同）关于亲属关系推理的问答记录（2023–06–21）：

ChatGPT对（1）（3）两题的回答相当不错，但对（2）的回答不尽如人意，因为它对“婶婶”的理解不够正确（“丈夫的妹妹”是“小姑子”，“丈夫的兄弟的妻子”是“妯娌”；“父亲的兄弟的妻子”才是“婶婶”，辈分上差了整整一辈呢！）。

这就是大语言模型表面上能够理解人类自然语言的意义的技术奥秘所在。那么，能不能就此说人工智能语言模型已经真正理解人类自然语言，并且真正具有人类智能呢？我们语言学还能做些什么呢？这就要看这种人工智能系统能不能通过有关的智能水平测试。为什么？因为要从理论上排除碰巧的可能，机器智能水平的测试向来是用语言理解水平作为标杆的。④为了方便大家了解原委，下面简单介绍图灵测试及其替换版本。

三、从“图灵测试”到“新图灵测试”

四、从“威诺格拉德模式挑战”到“WinoGrande数据集”

五、ChatGPT如何回应语义理解与常识推理挑战？

总之，ChatGPT在语义理解和常识推理能力方面虽然并非完美无缺，但是其正确率和流畅度的确达到了令人惊讶的程度。

六、结语：机器到底能不能理解自然语言？

（一）机器不可能像人一样具身地理解自然语言

具身模拟动用的大脑部位，就是我们大脑专门用于跟世界直接打交道的相同部位。当我们模拟观察，我们用的就是大脑中用来观察事物的部位；当我们模拟做动作，大脑中用来指挥肌肉运动的部位也跟着活跃起来。这就是说，模拟的意思就是在我们的脑海中创造出先前经历的回响，将大脑在先前感知和运动经历的活跃模式，以强度有所减弱的共鸣形式再现出来。我们用自己的大脑模拟感知与动作，但真正的感知与动作并没有发生。（Bergen2012：17）

显然，机器没有具身模拟这种认知能力，所以不可能像人一样真切地创造和理解意义，不能感受到语言所表达或激活的有关事物的颜色、形状、气味、滋味、声音等感觉特征。正如米切尔（Mitchell2021）所指出的，要想理解人类的语言，就需要理解这个世界，而只能接触到语言的机器无法获得这样的理解能力。我们来思考一下“跑车超过了卡车，是因为它的速度更慢”这句话是什么意思。首先你需要知道“跑车”和“卡车”是什么，而且需要知道车辆可以互相“超车”；从更基本的层面来看，车辆是存在于世界上、能够与之互动的物体，且由人类驾驶。据此，我们认为，要求机器跟人一样具身地理解自然语言，其实本身就是不合理和不公平的；这就像要求飞机必须像鸟儿那样扇动翅膀来飞行一样，是不近情理的。

（二）语言学家应积极参与人工智能研究

接下来另一个不便开口的问题可能是：在大语言模型时代，语言学会不会像钉碗、补锅、修伞之类的手工老行当一样，在新技术和新产品面前自行消失呢？我们认为，消失应该是不会的！但是，变化和革新是必须的！那么,语言学家到底可以做些什么呢？答案也许是：拥抱并适应新技术带来的变化，主动地了解新技术的成效、不足及其背后的原理，更加精细地研究语言的结构形式和语义解释规律，至少可以为人工智能的语言理解测试集的设计提供基本原则、语法规律和实例分析数据；比如，威诺格拉德模式挑战之类的测试集，语言学家完全是有能力构建的。这比空谈人工智能系统能不能理解人类自然语言要有意义得多。

记得美国第35任总统约翰·肯尼迪说过：“不要问国家能为你做什么，而要问自己能为国家做些什么。”在当下语境中，我们则要说：“不要问时代和社会真的会不会抛弃语言学，而要问语言学真的能为时代和社会做些什么！”

七、注释与参考文献

地址：北京市海淀区中关村南大街27号中央民族大学理工楼516室（100081）

THE END

如何测试ChatGPT的语义理解与常识推理水平？——兼谈大语言模型时代语言学的挑战与机会

ChatGPT改代码能力测试，能够理解编程语言的版本更新

苹果(AAPL.US)发布最新AI测试版本，集成ChatGPT正式版有望在下周发布！

基于Fuzzing和ChatGPT结合的AI自动化测试实践腾讯云开发者社区

ChatGPT测试版使用教程

谷歌版ChatGPT开放测试：不会编程不支持中文

如何测试ChatGPT的语义理解与常识推理水平？——兼谈大语言模型时代语言学的挑战与机会

怎么搭建属于自己的chatgpt服务器

如何使用官方版本的ChatGPT？别瞎折腾了，这才是正确的打开方式手机插件

谷歌版ChatGPTBard开放测试，我们已经体验上了

阿里版ChatGPT「通义千问」邀请测试，我们第一时间试了试机器之心

第一节：基于官网解读ChatGPT的一些功能限制和说明Yaopengfei

ChatGPT作为知识库问答系统的问答能力评测

全网最全ChatGPT3.5与ChatGPT4的横向对比，看完你就知道怎么选了！

chatgpt官网版下载chatgpt官网版2024最新版下载v1.1.1.2

ChatGPT怎么用？详细的ChatGPT使用教程电脑知识

ChatGPT4威力加强版上手：它很强但也有点拉

ChatGPT版Bing和Edge怎么使用？ChatGPT版必应体验及使用教程浏览下载