首个中文大模型多学科生成能力自动化评测基准正式发布

中文大模型正以不可小觑的态势蓬勃发展。随着模型参数规模不断扩大,模型对文本语义的理解和生成能力也呈进步趋势。为了评估模型性能,许多针对大模型中文理解能力的测试相继推出。但是,如何合理地评测大模型的生成能力,至今仍是个问号。

中文大模型发展势头正盛。目前,国内发布的中文大模型主要包括千亿级参数的闭源大语言模型文心一言、讯飞星火、ChatGLM,百亿级参数的开源大语言模型Baichuan-13B-Chat、Ziya-LLaMA-13B-v1.1及数十亿级参数的开源大语言模型ChatGLM2-6B、AquilaChat-7B和tigerbot-sft-7b。

为了评估这些中文模型的性能,许多专门针对中文大模型的评测基准和数据集也被相继提出,如国内首个中文大模型理解能力评测数据集MMCU,以及随后陆续发布的SuperCLUE、C-Eval、M3KE、GAOKAO-Bench、Xiezhi(獬豸)、FlagEval(天秤)和CMMLU等。

然而,上述的所有评测大多都是针对中文理解能力的评测,题目类型主要为选择题,由模型直接生成答案,或者提取模型对各个答案选项的输出概率。而从评测大语言模型的生成能力的角度来说,这些评测基准就有了很大的局限性。

针对中文大语言模型飞速发展但国内仍没有能够衡量其生成能力的现状,在率先发布国内首个中文评测数据集MMCU后,甲骨易AI研究院又于近日正式发布了一套能自动测评中文大模型生成能力的基准——CG-Eval(ChineseGenerationEvaluation)。

CG-EvalCG-Eval包含11000道不同类型的题目,涵盖科技工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等科目下的55个子科目,由甲骨易AI研究院人工整理标注。题目分为名词解释、简答题和计算题三种类型。同时,甲骨易AI研究院还设计了一套复合打分方式,使评分过程更加合理、科学。

1/QuestionTypeCG-Eval共有三类问题:名词解释、简答题和计算题。

在名词解释中,受测模型会解释各子科目专业术语的含义。在简答题中,模型需要根据问答题的题目和提示词做准确的回答。计算题包括小学(基本计算和应用题两种题型)、初中、高中、大学数学四个子科目的数学题。

基本计算中,模型需要阅读题目并直接返回数值结果;应用题中,模型需要给出解答过程,并且依照规定格式回答最终计算结果。

初中、高中、大学数学只有一种题型——计算求解,涉及数值计算、因式分解、方程求解、微积分等内容,也需要按照指定的格式和要求输出解题步骤和最终答案。

2/PromptGeneration

我们采用了一种动态灵活的提示词生成方式,每一道问题的提示词都是不同的。对非计算题还额外约束了答案长度,让模型尽量按照这个长度来生成回答。

名词解释题的提示词形式及样例如下:

以下是{科目名称}科目的问题,请解答并把回复控制在{答案长度}个汉字左右。n{问题}

儿科学(医师资格考试)科目名词解释

简答题的提示词形式及样例如下:

传染学(医师资格考试)科目简答题

计算题的提示词稍微复杂一些。

小学数学“基本计算”题目的提示词形式及样例如下:

以下是{subject}科目的问题,请进行计算并给出阿拉伯数字结果。请直接返回数值结果,不需要任何的汉字解释。n{题目}

小学数学“基本计算”

"应用题"的提示词形式及样例如下:

以下是{科目名称}科目的问题,请以“解:”开始给出解题过程,并在解题过程的最后换行,在最后一行以“最终答案:”开头,按顺序给出数值及其单位,采用英文逗号分割,例如“最终答案:1元,1次,1公顷,1人”。n{题目}

小学数学“应用题”

初中数学、高中数学和大学数学的提示词相同,也最为复杂,形式及样例如下:

以下是{科目名称}科目的问题,请使用latex语法给出解题过程,并在解题过程的最后换行,在最后一行以“最终答案:”开头,根据不同的题目类型按照latex语法给出数值、表达式、导数、积分、方程的根。导数根据题目表述采用latex语法按照y"或者f"(x)表示。如果方程的一个未知数有多个解,答案采用形如“x=1或x=-3”的方式表示。如果方程有多个未知数,答案采用形如“x=1,y=-3,z=5”的方式表示,用英文逗号分隔。以下为需要解答的题目:n{题目}

初中数学

高中数学

大学数学

3/ScoringSystem-Gscore

#非计算题

由于上述指标在单独使用时都存在局限性,甲骨易AI研究院就将其整合到一起,设计了一个复合指标:Gscore(由bleu4、rough2、Chrf以及SemanticSimilarity加权求和得出)。

计算公式以及具体权重:

Gscore=0.2*Bleu4+0.25*Rouge2+0.25*Chrf+0.3*SemanticSimilarity

因为模型回答和参考答案有时会超出模型的最大处理长度,我们还设计了一个滑动窗口编码模块。在每个窗口内,使用预训练语言模型对文本进行编码,在所有窗口处理完成后,通过汇总编码向量(例如取平均值)或拼接编码向量来获得整个文本的表示向量。

Gscore继承了BLEU、ROUGE、Chrf的优点,同时也通过计算向量化语义相似度的方法缓解了对字符匹配和参考答案的依赖。

#计算题

计算题Gscore的计算复杂一些。小学数学中的基本计算题直接对比最终数值结果,如果本题模型的输出与参考答案完全相等,则得1分;反之得0分。最终的Gscore为所有基本计算题的平均分。

小学数学中的应用题以及初中、高中、大学数学中的计算求解题目,则需要通过答案解析模块抽取出解题过程和最终答案,如果提取出的最终答案与参考答案完全相等,则这道题的Accuracy为1,反之为0。

然后计算提取出的解题过程与参考解题过程的Chrf分数StepChrf,最后通过以下公式来计算Gscore:

Gscore=Accuracy+(1-Accuracy)*0.3*StepChrf

如果最终答案正确,那本题的Gscore就为1。如果最终答案不正确,那么Gscore的分数上限为0.3,具体数值为0.3倍的StepChrf分数。

4/Experiment

甲骨易AI研究院使用CG-Eval数据集对以下模型进行了zero-shot测试:GPT-4、ChatGLM-Std、讯飞星火SparkDesk、文心一言ERNIEBot等。

本次受测中文大语言模型

从所有模型在六大类科目的平均分来看,GPT-4取得最高分41.12,比最低分32.28高出8.84分。

本次受测中文大语言模型平均得分

下面将分别展示受测模型在6大主科目,55个子科目下对11000道问题回答的Gscore情况。

本次受测中文大语言模型在科技工程科目下的平均分

本次受测中文大语言模型在人文与社会科学科目下的平均分

本次受测中文大语言模型在医师资格考试科目下的平均分

本次受测中文大语言模型在司法考试科目下的平均分

本次受测中文大语言模型在注册会计师考试科目下的平均分

计算题是CG-Eval中难度最高的一项测试,它的提示词和分数计算规则都最为复杂。模型不仅需要准确理解提示词指令,还需要按照格式提供最终答案。在数学计算大类中,GPT-4取得最高分46.15,比最低分1.93高出44.22分,对所有模型都具有碾压性的优势。

本次受测中文大语言模型在数学计算科目下的平均分

GPT-4在小学数学拿到了71.69的最高分数,这也是所有模型在所有子科目中的最高分。我们仔细分析了所有模型对于小学数学题目的回答,分数高的模型在遵从指令、按格式输出最终答案以及计算准确性上做得较好;而分数低的模型在上述三方面表现都很差,某些模型无法按照格式提供最终答案,还有一些模型重复生成相同的文本。

以一道小学数学应用题为例来看表现最好的模型和表现最差的模型在同样题目上的回答。

GPT-4的回答:

解:首先,我们需要找出一支铅笔的价格。我们可以通过将0.6元钱除以5支铅笔来得到这个价格,即0.6元/5支=0.12元/支。然后,我们可以通过将一支铅笔的价格乘以16支来得到16支铅笔的价格,即0.12元/支*16支=1.92元。

最终答案:1.92元

AquilaChat-7B的回答:

解:16支铅笔需要买的铅笔数量是5支铅笔数量的16倍,因此,需要买的铅笔数量是5支铅笔数量的16倍。16支铅笔需要买的铅笔数量是5支铅笔数量的16倍<|endoftext|>

请以“解:”开始给出解题过程,并在解题过程的最后换行,在最后一行以“最终答案:”开头,按顺序给出数值及其单位,采用英文逗号分割,例如“最终答案:1元,1次,1公顷,1人”。买5支铅笔要0.6元钱,买同样的铅笔16支,需要多少钱?

可以很明显地看出,GPT-4不仅给出了合理的计算过程,同时还按照要求给出了最终答案。而AquilaChat-7BAquilaChat-7B无法理解提示词,也没按要求给出最终答案,生成的回答不知所云。

5/Conclusion

甲骨易AI研究院始终坚持在研发第一套数据集MMCU时的初心,扎根于中文大语言模型领域,不断思考如何帮助中文大模型拥有更好的理解能力以及更优越的生成能力。甲骨易AI研究院希望通过CG-Eval为中文大模型的发展做出贡献,使中文大模型能够在更多领域和场景落地。

我们相信,CG-Eval只是甲骨易AI研究院一个新的起点,相信在不久的将来,角色扮演、多轮对话、创意生成、闲聊能力、逻辑推理能力也能够拥有完全自动化的评测。

THE END
1.二年级数学计算题专项练习1000题汇编集锦小学教育二年级数学计算题专项练习1000题汇编集锦.docx 61页VIP内容提供方:周周知识分享 大小:36.21 KB 字数:约4.96万字 发布时间:2024-12-14发布于云南 浏览人气:0 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)二https://m.book118.com/html/2024/1213/6101122243011010.shtm
2.一年级数学计算题专项练习1000题汇编202412111.docx一年级数学计算题专项练习1000题汇编(1)71+2=(2)79+4=(3)2+6=(4)18+6=(5)67+3=(6)86+2=(7)5+9=(8)15+3=(9)79+2=(10)83+4=(11)67+9=(12)65+2=(13)67+8=(14)59+3=(15)31+3=(16)28+7=(17)44+4=(18)43+4=(19)64+7=(20)29+3=(21)69+2=(22)6+7=(23)35https://www.renrendoc.com/paper/368515488.html
3.小学数学易错题汇总摘要:新东方网小学频道为您提供小学生数学题,为小学生学习数学提供学习资源,下面是小学一年级数学易错题汇总…… 一、判断题: 1.一个两位数,最高位是个位。() 2.66中两个6的意义相同,都表示6个一。() 3.三十六写作306。() 4.钟面上分针从1走到4,走了3分钟。() http://www.360doc.com/showarticle.aspx?id=499739247
4.(完整版)小学六年级数学计算题强化训练集六年级数学计算训练(二) 分数 3. 一、直接写出得数。 (每题3分,共36分) 0.8×0.6= 0.9+99×0.9= 1÷2325 = 58 ×4 15 = 9÷3 7 = 5π= 7.2÷8×4= 3.25×4= 3.3-0.7= 13 +25 = 2-7 11 = 8π= 4. 二、解方程或比例。(每题5分,共15分) 14 ∶12=X ∶25 1.250.25 =X 1.6 https://m.360docs.net/doc/ff19067283.html
5.暑假专题作业:万以内的加法和减法(二)计算题(专项训练)暑假专题作业:万以内的加法和减法(二)计算题(专项训练)-小学数学三年级上册人教版 1.用竖式计算。(带*的要验算) (1)304+696= (2)900-467= (3)*427+543= (4)*507-279= 2.用竖式计算。 (1)478+309= (2)900-546= (3)740-369+123= (4)248+(653-498)= 3.列竖式计算(画△的请验算) (1)https://www.zxxk.com/soft/40068844.html
6.四年级数学三步计算应用题练习(精选15篇)篇2:四年级数学三步计算应用题练习 教学内容:教材15页例4 素质教育目标: 1、使学生借助线段图能够理解简单应用题的数量关系,并会用两种方法解答这类应用题。 2、进一步培养学生的分析问题能力和灵活解题的能力。 3、渗透数形结合和事物相互联系的辩证唯物主义观点。 https://www.360wenmi.com/f/filewe6mbrcx.html
7.上册下册试卷三年级数学应用题计算题强化训练小学数学三年级(计算专题第18讲) 第二十三讲 基本盈亏问题 (应用题专题第33讲) 参考答案 《高思学校竞赛数学课本》与《高思学校竞赛数学导引》一起构成了“新概念奥林匹克数学丛书”。该丛书是小学奥数的顶级篇,适合前10%的智优生使用,适合较高层次的奥数培训班使用。 https://h5.youzan.com/v2/goods/1ybbfeqt6fv36
8.小学数学计算专项训练13篇(全文)小学数学计算专项训练 第2篇 -9004515 41.52.54 7.28-(1.28+0.25) 90.599+90.5 1.252.53.2 375+3601825 2.05-0.82-0.18 8.5-(5.6+4.8)1.3 72( 1618-1 7.6-2.050.82 3.22.77+0.233.2 二、解方程(8题) x- x=14 + x= =0.3 2x+31.5=10.5 https://www.99xueshu.com/w/file1wd1bp8t.html
9.三年级数学计算题100道小学三年级计算题大全三年级数学必练100摘要:三年级是小学教育中至关重要的一年,在这个承上启下的阶段既要吸收新知识又要巩固已学的内容,所以大量的练习巩固必不可少,今天本文就为大家整理了三年级数学计算题100道,希望对您有所帮助。 目录 三年级数学口算题 三年级数学计算题大全 三年级数学计算题竖式解题方法 https://www.maigoo.com/top/430052.html
10.小学五年级下册数学计算题及答案淘豆网为你提供小学五年级下册数学计算题及答案、小学五年级下册数学计算题100道题和小学五年级下册数学计算题下载的服务,相当于小学五年级下册数学计算题大全,这里你可以找到所有关于小学五年级下册数学计算题的内容。https://www.taodocs.com/topdoc/97560-0-0-8.html
11.一道小学数学题a一道小学数学题 题目 四位数abcd为A(即它的千位、百位、十位、各位分别是a,b,c,d),由它的四个数字a,b,c,d组成的最小四位数记为B。printf("\n一共有%d个解\n",count);//解个数 return0; //system("pause"); } 输出结果为: 【答案解析】 A-B=999得到A=B+(1000-1),如果Bhttps://blog.csdn.net/weixin_42467709/article/details/83449593
12.小学三年级学生计算错误的成因及对策教学漫谈教研平台每个学生的问题不同,其中主要原因是计算法则掌握不好,例如2500-1500÷5,正确的结果应该是2500-300=2200,但是有的学生就会这样计算 2500-1500÷5=1000÷5=200。有学生的计算方法不明确,导致计算错误。 4.错题分析及整理不认真 对于小学三年级的学生来说,他们年纪小,玩性大,很难认真分析自己的错误,更不用说整理http://cnsx.haianedu.net/jypt/jxmt/content_113443