如何测试ChatGPT的语义理解与常识推理水平?——兼谈大语言模型时代语言学的挑战与机会

作者:袁毓林;来自:《语言战略研究》

【关键词】ChatGPT;大语言模型;新图灵测试;威诺格拉德模式挑战;WinoGrande数据集

一、引言:大语言模型给语言学家带来的挑战与机会

照理说,语言学家应该是欢迎语言技术的进步与飞跃发展的,但是当人工智能聊天机器人ChatGPT风靡全网、风光无限时,不少语言学家又感到危机空前,因为ChatGPT等大语言模型(largelanguagemodel,LLM)在语言理解与生成方面功能强大,并且几乎绕开了当代主流的语言学理论与方法(详见Piantadosi2023)。这于有形无形中都是在向语言学施压。对此,比较敏感的语言学者是心怀戒备与恐惧的。其实,十几年前,“没有语言学的计算语言学”就已成为许多语言学家的心头之痛;对此,国际自然语言处理学界也大声呼吁过:让语言学重新回到计算语言学中,并且成为自然语言处理的支撑性学科(详见Wintner2009)。只是彼时的自然语言处理系统水平不太高,还不足以显示语言学对于语言处理技术几无用处。现在情况不一样了,能够聊天、答问、写作甚至解数学题、编程序、写代码的ChatGPT就摆在大家面前,没有办法视而不见!怎么办?一种乐观主义的想法是“天生我材必有用”,ChatGPT等大语言模型既然会给语言学造成危机,那么一定也会给语言学带来某种机会!是的,危中必有机,天无绝人之路;在大语言模型时代,语言学一定是挑战与机会并存的,一切端看我们怎么应对。

二、机器智能水平的语言理解测试和分布式语义学

笔者从2006年至2018年,先后指导了两届博士后和两届博士研究生研究这个问题,经过10多年的不懈努力,初步解决了这类难题,发表了一系列论文(陈振宇,等2009,2010;陈振宇,袁毓林2010;袁毓林,等2010;卢达威,袁毓林2019),研制出了效率较高的“汉语亲属关系的自动推理系统”。现在,这类亲属关系问题基本上难不倒ChatGPT。下面是笔者跟ChatGPTplus(下同)关于亲属关系推理的问答记录(2023–06–21):

ChatGPT对(1)(3)两题的回答相当不错,但对(2)的回答不尽如人意,因为它对“婶婶”的理解不够正确(“丈夫的妹妹”是“小姑子”,“丈夫的兄弟的妻子”是“妯娌”;“父亲的兄弟的妻子”才是“婶婶”,辈分上差了整整一辈呢!)。

这就是大语言模型表面上能够理解人类自然语言的意义的技术奥秘所在。那么,能不能就此说人工智能语言模型已经真正理解人类自然语言,并且真正具有人类智能呢?我们语言学还能做些什么呢?这就要看这种人工智能系统能不能通过有关的智能水平测试。为什么?因为要从理论上排除碰巧的可能,机器智能水平的测试向来是用语言理解水平作为标杆的。④为了方便大家了解原委,下面简单介绍图灵测试及其替换版本。

三、从“图灵测试”到“新图灵测试”

四、从“威诺格拉德模式挑战”到“WinoGrande数据集”

五、ChatGPT如何回应语义理解与常识推理挑战?

总之,ChatGPT在语义理解和常识推理能力方面虽然并非完美无缺,但是其正确率和流畅度的确达到了令人惊讶的程度。

六、结语:机器到底能不能理解自然语言?

(一)机器不可能像人一样具身地理解自然语言

具身模拟动用的大脑部位,就是我们大脑专门用于跟世界直接打交道的相同部位。当我们模拟观察,我们用的就是大脑中用来观察事物的部位;当我们模拟做动作,大脑中用来指挥肌肉运动的部位也跟着活跃起来。这就是说,模拟的意思就是在我们的脑海中创造出先前经历的回响,将大脑在先前感知和运动经历的活跃模式,以强度有所减弱的共鸣形式再现出来。我们用自己的大脑模拟感知与动作,但真正的感知与动作并没有发生。(Bergen2012:17)

显然,机器没有具身模拟这种认知能力,所以不可能像人一样真切地创造和理解意义,不能感受到语言所表达或激活的有关事物的颜色、形状、气味、滋味、声音等感觉特征。正如米切尔(Mitchell2021)所指出的,要想理解人类的语言,就需要理解这个世界,而只能接触到语言的机器无法获得这样的理解能力。我们来思考一下“跑车超过了卡车,是因为它的速度更慢”这句话是什么意思。首先你需要知道“跑车”和“卡车”是什么,而且需要知道车辆可以互相“超车”;从更基本的层面来看,车辆是存在于世界上、能够与之互动的物体,且由人类驾驶。据此,我们认为,要求机器跟人一样具身地理解自然语言,其实本身就是不合理和不公平的;这就像要求飞机必须像鸟儿那样扇动翅膀来飞行一样,是不近情理的。

(二)语言学家应积极参与人工智能研究

接下来另一个不便开口的问题可能是:在大语言模型时代,语言学会不会像钉碗、补锅、修伞之类的手工老行当一样,在新技术和新产品面前自行消失呢?我们认为,消失应该是不会的!但是,变化和革新是必须的!那么,语言学家到底可以做些什么呢?答案也许是:拥抱并适应新技术带来的变化,主动地了解新技术的成效、不足及其背后的原理,更加精细地研究语言的结构形式和语义解释规律,至少可以为人工智能的语言理解测试集的设计提供基本原则、语法规律和实例分析数据;比如,威诺格拉德模式挑战之类的测试集,语言学家完全是有能力构建的。这比空谈人工智能系统能不能理解人类自然语言要有意义得多。

记得美国第35任总统约翰·肯尼迪说过:“不要问国家能为你做什么,而要问自己能为国家做些什么。”在当下语境中,我们则要说:“不要问时代和社会真的会不会抛弃语言学,而要问语言学真的能为时代和社会做些什么!”

七、注释与参考文献

地址:北京市海淀区中关村南大街27号中央民族大学理工楼516室(100081)

THE END
1.怎么问出chatGPT的版本?Worktile社区要问出 chatGPT 的版本,可以使用以下几种方式: 1. 通过对话框架:如果你正在使用 chatGPT 的对话框架或接口,你可以直接询问 chatGPT 的版本。 2. 查看模型信息:chatGPT 的版本通常会在发布时被明确指明。你可以检查 chatGPT 的文档、发布公告或模型信息,其中会提供版本相关的信息。 3. 提问社区:你可以向 chathttps://worktile.com/kb/ask/538347.html
2.如何测试你是不是真的ChatGPT作为ChatGPT的AI语言模型,我可以回答用户的问题并提供相应的帮助。如果您怀疑我是否真的是ChatGPT,您可以通过向我提出问题来测试我的回答质量和准确性,或者了解我的背景和能力。除此之外,您还可以参考其他用户对我的评价和反馈来确定我是否是真正的ChatGPT。https://blog.csdn.net/weixin_35750953/article/details/129537539
3.如何搭建并部署ChatGPT接口服务如何搭建并部署ChatGPT接口服务 最近有不少朋友在问用于微信的ChatGPT接口以及怎么搭建ChatGPT接口服务,本文将以一个github开源项目为例,演示在Linux下搭建ChatGPT接口服务的流程。 一、准备工作 1、一台国外服务器(Linux环境) 国内的服务器目前无法访问ChatGPT的服务。https://www.deanhan.cn/create-chatgpt-api-for-wechat.html
4.如何更新ChatGPT到最新版本?·构建你的智能应用,使用蓝莺Chat更新ChatGPT到最新版本涉及几个关键步骤:1、检查当前版本和系统要求;2、下载最新版本或更新包;3、安装和配置新版本;4、测试是否正常运行。特别是检查当前版本和系统要求这一点,需要确保当前系统兼容最新版本的ChatGPT,以免出现不必要的问题。 一、检查当前版本和系统要求 https://docs.lanyingim.com/quest/how-to-update-chatgpt-40-20240713-1-6-1720864921.html
5.chatgpt版本号怎么查看?(chatGPT有哪些版本)cha微信pt版本号怎么查看? 要查看Chat GPT的版本号,可以执行以下步骤: (图片来源网络,侵删) 1. 运行Chat GPT并登录您的账户(如果还没有登录)。 2. 点击左下角的“设置”图标,进入“设置”菜单。 3. 在“设置”菜单中,选择“关于”或“版本信息”。 https://www.shiwaiyun.com/article/post/212305.html
6.安卓应用商店chatgpt显示设备与此版本不兼容解决方法此app与安卓应用商店 chatgpt显示设备与此版本不兼容解决方法 此app与设备不兼容, 题记:如果支付宝和不兼容,要二选一,你会怎么选择?  首先了解一下背景:笔者最近发现,微众银行的app升级到1.7.4,而患有轻度强迫症的人是迫不及待的点了升级。第一次,居然安装https://blog.51cto.com/u_16099330/10795180
7.私域都在想着用好ChatGPT李国庆私域团队负责人黄生测试了一版白酒行业的ChatGPT,用于提升私域销售效能,让小白秒变销冠。 私域服务商团队233品牌私域和句子互动也做出新的产品尝试,将ChatGPT与企微结合,推出了全新的对话式服务,用在智能客服、群内气氛组、群员的体验效果非常好。 https://www.niaogebiji.com/article-525933-1.html
8.如何使用chatGPT做谷歌SEO文章优化?3.使用Chatgpt写seo原创文章的详细办法 接下来介绍的也是自己最近自己研究发现的,亲测有效。但是篇幅不宜过长,建议如果文章很长分几次改写为宜。 3.1先使用chatGPT罗列出来一个大纲 首先让chatGPT给我们一个内容的大纲,具体的办法按照下图的提示即可。 https://www.cifnews.com/article/150840
9.科学的温度ChatGPT走红,人工智能离通过图灵测试还有多远?中新网12月21日电 (记者 孟湘君)从AlphaGo的“棋艺”,到自动驾驶的“车技”,从调侃ChatGPT的“会聊天就多聊点”,到讨论AI绘画生成的二次元图像有多惊艳或搞笑,人工智能,似乎正越来越多地成为人们关注的焦点。 但同时,对于人工智能“不够聪明”、“存在危险”等声音,也持续浮现。现在很火的一些人工智能运用,未https://www.chinanews.com/m/cj/2022/12-21/9919039.shtml
10.实测得分超ChatGPT!百度文心大模型3.5版内测应用—新闻—科学网实测得分超ChatGPT!百度文心大模型3.5版内测应用 6月20日消息,据内部人士透露,百度文心大模型3.5版本已内测可用。早在5月末中关村论坛上,百度创始人、董事长兼CEO李彦宏透露,百度大模型产品“文心一言”的“母本”将迎来3.5版本,距今时隔不到一个月。 最新版本文心大模型达到了怎样的实力?在公开测试集上进行的基础https://news.sciencenet.cn/htmlnews/2023/6/503256.shtm
11.使用ChatGPT翻译epub简单测试module'openai'has no attribute'ChatCompletion'will sleep60secondsmodule'openai'has no attribute'ChatCompletion' 需更新openai,使用 pip install openai --upgrade 使用pip list查看版本, 但是openai 版本仍然是0.26.5 从官网上可以看到,目前官网上最新的是0.27.2 https://www.jianshu.com/p/3c9bbbec5142
12.亲测能用ChatGPT国内平替软件:秘塔写作猫免费下免安装PS:本站为大家带来的是免费的ChatGPT 国内平替软件:秘塔写作猫免费下【免安装】扫码登录一键免费用,有需要的小伙伴就去使用吧! 秘塔写作猫特色: 1.秘塔写作猫软件特色支持多个网站快速采集,不用手动选择,直接一键批量采集; 2.支持采集的网站非常多,只要是你想要采集的网站都可以采集,无需担心采集不到 3.采集出https://www.yutu.cn/softhtml/showsoft_8530.html