论文地址:Tobeadded
复杂问答是KBQA的一个具有挑战性的任务,它全面测试了模型在语义解析和推理方面的能力。为了评估ChatGPT作为问答系统(QAS)利用其自身知识的表现,我们提出了一个框架,评估其回答复杂问题的能力。我们的方法涉及将复杂问题的潜在特征分类,并使用多个标签描述每个测试问题,以识别组合推理。
在各种类型的KBQA任务中,复杂问答(基于知识库的复杂问答,KB-basedCQA)是一个具有挑战性的任务,要求问答模型具有组合推理的能力,以回答需要多跳推理、属性比较、集合操作和其他复杂推理的问题。我们认为,评估ChatGPT利用自身知识回答复杂问题的能力可以帮助我们回答ChatGPT是否能够取代传统的KBQA模型的问题。此评估从两个方面评估ChatGPT:1)分析其对于复杂问题的语义解析能力;2)测试其通过组合推理过程使用自身知识回答问题的可靠性。
现有的工作通常依靠小规模采样测试和人工评估相结合的方法来完成对ChatGPT性能的评估,因为API的限制和通过ExactMatch(EM)评估生成答案的困难。因此,往往得到的是粗略的和经验性的发现,而不是可量化的结果。因此,需要进一步的验证以确保这些结论的普适性。
在这项工作中,我们利用ChatGPT自身的知识作为知识库,在基于知识的问答(CQA)方面对其进行全面评估,并将其优点和限制与其他类似的大型语言模型(LLMs)和现有的基于知识的问答(KBQA)模型进行比较。我们的评估框架由两个主要步骤组成:首先,受HELM[21]的场景驱动评估策略的启发,我们设计了一种基于特征的多标签注释方法来标记测试问题中涉及的答案类型、推理操作和语言。这些标签不仅有助于我们逐个分析ChatGPT的推理能力,而且它们的组合也可以帮助我们发现许多ChatGPT擅长或不擅长的潜在QA场景。然后,遵循CheckList[22]的测试规范,测试目标分为三个部分:最小功能测试(MFT)、不变性测试(INV)和方向性期望测试(DIR)。第一个反映了模型执行各种推理任务的准确性,而第二个和第三个反映了推理的可靠性。为了在INV和DIR测试中获得更多可分析的结果,我们采用了Chain-of-Thought(CoT)[5]方法,设计提示模板以建立其他测试用例。
要建立这样的评估框架,需要解决两个主要的挑战。
我们的主要发现和见解如下:
2.在CheckList测试中,我们发现ChatGPT在知识库问答方面存在一些限制,包括:1.MTF测试结果显示,它不擅长回答只涉及一种类型推理的问题。2.INV测试结果表明,与传统的KBQA相比,ChatGPT在处理相似或几乎相同的输入时不够稳定。3.DIR测试显示,ChatGPT并不总是对正确提示提供积极反馈。当面对修改后的测试样本时,其输出的变化并不总是符合我们的预期。
3.使用CoT(思路链)提示来引导ChatGPT逐步回答问题是有用的,特别是在增强需要使用计数获取答案的问题的解决能力方面表现出特别的功效。
2.大语言模型的评估最近出现了许多旨在评估LLM的作品,它们使用现有的NLP数据集构建大规模基准,包括BIG-Bench、AILMHarness和SuperGLUE等大规模基准[12,13,14],以HELM[15]等全面评估LLM在各种任务场景下表现的方法。受到这个想法的启发,本文建立了一个以特征为驱动的评估系统,以全面评估LLM面对各种复杂问题特征时的问题理解和答案生成能力。其他一些作品也通过基于人类的输入作为案例分析,评估了ChatGPT的具体能力,如数学能力和推理能力[16]。
3.NLP模型的黑盒测试
由于训练LLM的高昂成本,目前LLM的评估工作主要集中在黑盒测试上。有许多有价值的方法可以作为参考,例如用于评估鲁棒性的方法[17]、用于对抗性变化的方法[18]、关于注意力和可解释性的工作[19]等。目前最全面的方法是CheckList协议,将评估目标分为MFT、INV和DIR三个部分。在本工作中,我们遵循这个评估计划,并使用CoT提示生成INV和DIR的测试用例。
我们的评估框架由两个阶段组成。第一阶段旨在通过使用多个标签来描述测试问题,包括问题类型、组合推理类型和语言特征;第二阶段根据CheckList框架评估LLM对测试问题的每个标签的功能性、QA的鲁棒性和输出内容的可控性。接下来将详细解释这些阶段的设计,其过程如图1所示。
1.衡量方法
通常有两种策略来评估基于知识的问答系统(KBQA)的输出:SPARQL匹配和答案匹配。然而,ChatGPT在生成具有统一实体和关系ID的SPARQL查询方面存在困难,使得SPARQL匹配难以自动化。因此,在我们主要实验的QA评估部分中,我们采用了答案匹配策略。作为补充,我们在DIR部分设置了带有SPARQL输出的测试用例,以手动评估ChatGPT识别问题中包含的推理操作的能力。
与现有的KBQA模型不同,ChatGPT在问答场景下的输出一般是一段包含了答案的文本,难以直接与数据集提供的答案做精确匹配从而得到模型的精准率。而由于采样的数据规模较小,已有的ChatGPT评估工作一般通过人工评价来计算模型的性能。因此,我们需要建立一套大部分自动化的答案评测方法。
我们采用了一个朴素的通过扩充匹配范围的思路来强化答案匹配的泛化性,具体包括以下两个操作,如图3所示:
1.通过成分句法解析树提供的子树标签,可以提取文本答案中的所有名词短语。如图3中所示,我们按照粒度的升序(从单词到名词短语,甚至短句)获得了名词短语列表。
2.通过利用Wikidata和WordNet,我们收集了GoldenAnswer的其他答案列表,包括多语言的别名和同义词。名词短语列表与答案列表之间的精确匹配显著提高了答案匹配的概括性。对于未能匹配的样本,我们基于短语向量之间的余弦相似度设置了一个阈值,以获取潜在匹配项。超过此阈值的部分随后将进行手动判断其正确性。对于具有“DATE”、“Boolean”和“NUM”类型答案的QA,我们已基于其GoldenAnswer的特征建立了特殊的判断程序。由于我们的度量方法本质上仍然是精确匹配,因此在实验部分,我们使用准确率(Acc)作为模型之间性能比较的指标。
1.基于prompt的CheckList策略参照CheckList框架的的思路,我们也设置了三个评估目标来评估ChatGPT:
1.通过最小功能测试(MFT)评估LLM在KB-basedCQA场景下处理每个特征的能力;
2.通过不变性测试(INV)评估LLM处理KB-basedCQA场景中各种特征的能力的稳健性;
3.通过有向期望测试(DIR)评估LLM是否能产生符合人类期望的经过修改的输入输出,即ChatGPT的可控性。
图4中给出的一个INV和DIR的测试实例。
MFT是一组简单的示例,以及它们各自的标签,旨在验证给定能力中的特定行为。在这项工作中,我们使用标签选择仅包含单一推理类型的样本,并将它们形成MFT测试用例,以检查ChatGPT在执行基本函数(例如“多跳推理”、“计数”、“排序”等)方面的性能。表5提供了测试用例的示例。
INV是指对模型的输入施加微小的扰动,同时期望模型的输出正确性保持不变。不同的扰动函数需要针对不同的能力,例如修改命名实体识别(NER)能力中的地名或引入错别字以评估鲁棒性能力。
在本文中,我们设计了两种方法来生成INV测试用例:
1.在测试的问题句子中随机引入拼写错误;
2.对测试的问题生成一个语义等效的同义复述的问题。
随后,我们通过检查ChatGPT在三个输入(原始测试用例、添加拼写错误的版本和同义复述版本)时产生的输出的一致性来评估ChatGPT的不变性。
DIR是类似于INV的方法,其不同之处在于期望标签以某种方式改变。在本研究中,我们探索了三种创建DIR测试用例的方法:
2.我们在输入中添加包含答案类型的提示,以检查ChatGPT是否能够根据提示控制输出答案类型。
3.受到CoT的启发,我们使用通用的多轮提示来重写测试用例,允许ChatGPT通过“逐步”过程获取答案,以观察ChatGPT对不同类型问题的CoT提示的敏感性。
1.对比模型我们对比了目前主流的LLM,包括GPT3(Davinci-001),GPT3.5(Davinci-002,Davinci-003)以及开源的FLAN-T5模型(FLAN-T5-xxl).
2.实验结果
3.主要结果各个模型在数据集上的准确率以及SOTA的对比:我们比较了ChatGPT与类似LLM的性能,包括FLAN-T5、GPT3.0和GPT3.5变体,并评估了它们与当前最佳微调(FT)和零样本(ZS)模型的偏差.
主要实验结果见表2。结果表明,ChatGPT在7个测试数据集上显著优于其他参与的LLM,并在WQSP和GraphQuestions数据集上超越当前的SOTA(Fine-tune)。然而,在其他数据集上,ChatGPT的表现仍然显著劣于传统模型的SOTA,特别是在实体丰富的测试集中,比如KQApro、LC-quad2.0和GrailQA。各个模型在不同答案类型和推理类型问题上的表现:
多语言测试集上的实验结果表明,ChatGPT在所有语言的测试上都优于对比模型,尤其在低资源语言上的性能领先更为明显。值得注意的是,“fa”和“hiIN”等低资源语言的显著改进反映了ChatGPT利用资源丰富的训练数据来增强低资源模型性能的有效性。然而,中文测试中得分较低的情况让我们感到不解,我们无法确定这种情况是由于“中文资源不足”还是“资源质量不佳”造成的。
1.MFT结果我们选择仅包含单个推理标签或多个标签的测试用例相同类型(例如SetOperation+比较、SetOperation+过滤),并汇总其结果以获得MFT:
值得注意的是,与之前表3的数据做对比,可以发现SetOperation和Comparison任务的性能大幅下降。这一结果表明ChatGPT在复合推理中的集合运算或比较中的表现优于单一推理。我们假设这是由于复合推理过程为ChatGPT提供了更多的中间信息,从而缩小了其搜索范围。
1.INV结果下表显示了ChatGPT在抽样测试用例上的三次运行中的性能,评估了每种答案类型和每种推理类型。其中三次的运行结果分别代表原始问题、添加拼写错误和改写句子以后的运行结果。结果的符号解释为:C表示问题是正确回答,而W表示问题没有正确回答或者没有返回任何有用的答案。这个判断过程涉及人工监督,只有当三轮测试的输出一致时,才认为模型在其对应的功能类别中是稳定的。总体而言,这两个表显示ChatGPT在复杂的问答任务中表现出大约79.0%的可靠性。
1.DIR结果
我们设计了三种形式的定向期望测试,分别考察ChatGPT在答案类型识别、推理、CoT提示响应方面的能力。首先,对于侧重于答案类型的DIR测试,我们使用了一个简单的提示来告知ChatGPT当前问题的答案类型,期望它利用此信息将候选答案范围限制为特定类型。如图8所示,结果表明告知答案类型对于具有布尔值和NUM答案的问题特别有用。但是,总体而言,我们的提示对大多数问题类型都无效,甚至导致答案类型识别错误较多。
本文介绍了对ChatGPT在回答复杂问题时使用自己的知识库的性能进行大规模实验分析,与类似的大语言模型和当前最先进的模型(SOTA)进行了比较。分析突出了ChatGPT的优点、局限性和不足之处。同时,我们也使用Checklist框架对ChatGPT在处理各种答案类型和推理要求时的基本性能、稳定性和可控性进行了详细的测试和分析。我们相信这些发现将为以ChatGPT为代表的大规模语言模型的开发和下游研究提供有价值的见解和参考。
1.Ribeiro,M.T.,Wu,T.,Guestrin,C.,Singh,S.:Beyondaccuracy:Behavioraltestingofnlpmodelswithchecklist.In:Proceedingsofthe58thAnnualMeetingoftheAssociationforComputationalLinguistics.pp.4902–4912(2020)
2.Petroni,F.,Rocktschel,T.,Riedel,S.,Lewis,P.,Bakhtin,A.,Wu,Y.,Miller,A.:LanguagemodelsasknowledgebasesIn:Proceedingsofthe2019ConferenceonEmpiricalMethodsinNaturalLanguageProcessingandthe9thInternationalJointConferenceonNaturalLanguageProcessing(EMNLP-IJCNLP).pp.2463–2473(2019)
3.Omar,R.,Mangukiya,O.,Kalnis,P.,Mansour,E.:Chatgptversustraditionalquestionansweringforknowledgegraphs:Currentstatusandfuturedirectionstowardsknowledgegraphchatbots.arXive-printspp.arXiv–2302(2023)
4.Bang,Y.,Cahyawijaya,S.,Lee,N.,Dai,W.,Su,D.,Wilie,B.,Lovenia,H.,Ji,Z.,Yu,T.,Chung,W.,etal.:Amultitask,multilingual,multimodalevaluationofchatgptonreasoning,hallucination,andinteractivity.arXive-printspp.arXiv–2302(2023)
5.Wei,J.,Wang,X.,Schuurmans,D.,Bosma,M.,Xia,F.,Chi,E.H.,Le,Q.V.,Zhou,D.,etal.:Chain-of-thoughtpromptingelicitsreasoninginlargelanguagemodels.In:AdvancesinNeuralInformationProcessingSystems
6.He,H.,Choi,J.D.:Thestemcellhypothesis:Dilemmabehindmulti-tasklearningwithtransformerencoders.In:Proceedingsofthe2021ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.pp.5555–5577(2021)
7.Brown,T.,Mann,B.,Ryder,N.,Subbiah,M.,Kaplan,J.D.,Dhariwal,P.,Nee-lakantan,A.,Shyam,P.,Sastry,G.,Askell,A.,etal.:Languagemodelsarefew-shotlearners.Advancesinneuralinformationprocessingsystems.33,1877–1901(2020)
8.Ouyang,L.,Wu,J.,Jiang,X.,Almeida,D.,Wainwright,C.L.,Mishkin,P.,Zhang,C.,Agarwal,S.,Slama,K.,Ray,A.,etal.:Traininglanguagemodelstofollowinstructionswithhumanfeedback.arXive-printspp.arXiv–2203(2022)
9.Raffel,C.,Shazeer,N.,Roberts,A.,Lee,K.,Narang,S.,Matena,M.,Zhou,Y.,Li,W.,Liu,P.J.:Exploringthelimitsoftransferlearningwithaunifiedtext-to-texttransformer.TheJournalofMachineLearningResearch21(1),5485–5551(2020)
10.Rae,J.W.,Borgeaud,S.,Cai,T.,Millican,K.,Hoffmann,J.,Song,F.,Aslanides,J.,Henderson,S.,Ring,R.,Young,S.,etal.:Scalinglanguagemodels:Methods,analysis&insightsfromtraininggopher.arXive-printspp.arXiv–2112(2021)
11.Chowdhery,A.,Narang,S.,Devlin,J.,Bosma,M.,Mishra,G.,Roberts,A.,Barham,P.,Chung,H.W.,Sutton,C.,Gehrmann,S.,etal.:Palm:Scalinglanguagemodelingwithpathways.arXive-printspp.arXiv–2204(2022)
12.Srivastava,A.,Rastogi,A.,Rao,A.,Shoeb,A.A.M.,Abid,A.,Fisch,A.,Brown,A.R.,Santoro,A.,Gupta,A.,Garriga-Alonso,A.,etal.:Beyondtheimitationgame:Quantifyingandextrapolatingthecapabilitiesoflanguagemodels.arXive-printspp.arXiv–2206(2022)
13.Gao,L.,Tow,J.,Biderman,S.,Black,S.,DiPofi,A.,Foster,C.,Golding,L.,Hsu,J.,McDonell,K.,Muennighoff,N.,etal.:Aframeworkforfew-shotlanguagemodelevaluation.Versionv0.0.1.Sept(2021)
14.Wang,A.,Pruksachatkun,Y.,Nangia,N.,Singh,A.,Michael,J.,Hill,F.,Levy,O.,Bowman,S.R.:Superglue:astickierbenchmarkforgeneral-purposelanguageunderstandingsystems.In:Proceedingsofthe33rdInternationalConferenceonNeuralInformationProcessingSystems.pp.3266–3280(2019)
15.Liang,P.,Bommasani,R.,Lee,T.,Tsipras,D.,Soylu,D.,Yasunaga,M.,Zhang,Y.,Narayanan,D.,Wu,Y.,Kumar,A.,etal.:Holisticevaluationoflanguagemodels.arXive-printspp.arXiv–2211(2022)
16.Frieder,S.,Pinchetti,L.,Griffiths,R.R.,Salvatori,T.,Lukasiewicz,T.,Petersen,P.C.,Chevalier,A.,Berner,J.:Mathematicalcapabilitiesofchatgpt.arXive-printspp.arXiv–2301(2023)
17.Belinkov,Y.,Glass,J.:Analysismethodsinneurallanguageprocessing:Asurvey.TransactionsoftheAssociationforComputationalLinguistics7,49–72(2019)
18.Wu,T.,Ribeiro,M.T.,Heer,J.,Weld,D.S.:Errudite:Scalable,reproducible,andtestableerroranalysis.In:Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics.pp.747–763(2019)
19.Wang,A.,Pruksachatkun,Y.,Nangia,N.,Singh,A.,Michael,J.,Hill,F.,Levy,O.,Bowman,S.R.:Superglue:astickierbenchmarkforgeneral-purposelanguageunderstandingsystems.In:Proceedingsofthe33rdInternationalConferenceonNeuralInformationProcessingSystems.pp.3266–3280(2019)
20.Fu,Y.,Peng,H.,Khot,T.:Howdoesgptobtainitsabilitytracingemergentabilitiesoflanguagemodelstotheirsources.YaoFu’sNotion(2022)
21.Liang,P.,Bommasani,R.,Lee,T.,Tsipras,D.,Soylu,D.,Yasunaga,M.,Zhang,Y.,Narayanan,D.,Wu,Y.,Kumar,A.,etal.:Holisticevaluationoflanguagemodels.arXive-printspp.arXiv–2211(2022)
22.Ribeiro,M.T.,Wu,T.,Guestrin,C.,Singh,S.:Beyondaccuracy:Behavioraltestingofnlpmodelswithchecklist.In:Proceedingsofthe58thAnnualMeetingoftheAssociationforComputationalLinguistics.pp.4902–4912(2020)