《中国考试》2024年第2期电子刊物电子书免费制作

台、国家哲学社会科学学术期刊数据库和中文

科技期刊数据库在其数据库产品中以数字化

方式复制、汇编、发行、信息网络传播本刊全

文,其著作权使用费已包含在本刊所付稿酬

本刊将按作者说明处理。

于涵

王海东

周黎明陈宁张丽

金婧徐奉先

吕默

牟远

许艺

(010)8252029182520300

(010)82520294

北京市海淀区清华科技园立业大厦

100084

cexam@mail.neea.edu.cn

北京科信印刷有限公司

京海工商广字第0144号

中国邮政集团有限公司

北京市报刊发行局

82-983

中国国际图书贸易集团有限公司

(北京399信箱100048)

2024年2月10日

ISSN1005-8427

CN11-3303/G4

中国标准

连续出版物号

主管中华人民共和国教育部

主办教育部教育考试院

编辑出版《中国考试》杂志社

社长兼主编

执行主编

编辑

美编

发行

英文审译

传真

地址

邮政编码

网址

电子信箱

印刷

国内发行

邮发代号

国外发行

出版日期

(1991年创刊,月刊)

ZHONGGUOKAOSHI

2024年第2期总第382期

顾问

林蕙青钟秉林瞿振元谈松华

谢维和杨学为赵亮宏姜钢

编辑委员会

主任

副主任

委员(以姓氏笔画为序)

于涵王湘波文东茅李强

刘芃刘庆思刘建达刘贵华

刘海峰孙开键孙昌华杨志明

杨松何莲珍辛涛张华华

张厚粲张敏强罗冠中周光礼

周作宇郑方贤郑庆华郑若玲

侯杰泰秦春华袁振国郭凡民

席小明韩家勋臧铁军

李强

中国高考难度分析理论构建初探

大型教育监测:误解与启示

PISA数字化学习技能测评

以学习者为中心的自适应学习系统的设计与评估

香港中学文凭考试等级预测研究

香港中学文凭考试诊断反馈系统的开发及改进

香港中学文凭考试英语口语实施网考的探索研究

高利害性计算机化考试的技术模式

——以清华大学“清标学测”项目为例

法国新“高考”增设大口试科目及其启示

美国高校荣誉学院拔尖创新人才选拔模式特征及启示

美国教师增值评价的实践经验及启示

科举制下清代官学教师考核与升迁制度研究

翰林院与科举的双向互动

侯杰泰

MarioPiacentini

席小明

许嘉凌萧伟乐席小明

禤美瑶萧伟乐周钜宽杨汉基席小明

CameronSmartJenniferShiuMatthewDrysdaleAndyChan

于小琳吴喆一

焦丽亚

李佑发武芯苇张丽李佳嵘林萱

王娟胡钦晓

程春玉施克灿

王飞阳

01

11

18

25

33

40

47

56

66

74

83

92

102

教育考试数字化

国外测评

历史与文化

目次

特稿

(月刊)2024年第2期总第382期

香港测评研究专题

JournalofChinaExaminations

ExploringaTheoreticalFrameworkforAnalyzingtheDifficultyofChineseGaokaoYUHan

Large-scaleEducationMonitoring:MisunderstandingsandImplicationsHAUKit-Tai

PISAInnovativeAssessmentsofLearningSkillsMarioPIACENTINI

DesigningandEvaluatingALearner-FirstAdaptiveLearningSystemXIXiaoming

PredictedLevelStudyoftheHongKongDiplomaofSecondaryEducationExamination

HSUChia-Ling,SIUWai-lok,XIXiaoming

DevelopingandEnhancingtheHongKongDiplomaofSecondaryEducationExaminationDiagnosticFeedback

SystemHUENMei-yiu,SIUWai-lok,CHOWKui-foon,YEUNGHon-kei,XIXiaoming

ExploringtheUseofanInternet-DeliveredSpeakingTestintheHongKongDiplomaofSecondaryEducation

ExaminationCameronSMART,JenniferSHIU,MatthewDRYSDALE,AndyCHAN

TheTechnicalModelofHigh-StakesComputer-basedTesting:TakingtheTHUSSATProjectofTsinghua

UniversityasanExampleYUXiaolin,WUZheyi

TheGrandOralintheFrenchBAC2021ReformandItsImplicationsJIAOLiya

TheCharacteristicsandImplicationsoftheSelectionModeofInnovativeTalentsinHonorsCollegesof

AmericanUniversitiesLIYoufa,WUXinwei,ZHANGLi,LIJiarong,LINXuan

TheExperienceandImplicationsofTeacherValue-AddedEvaluationintheUnitedStates

WANGJuan,HUQinxiao

ResearchontheAssessmentandPromotionSystemofTeachersinQingDynastyOfficialSchoolsUnderthe

ImperialExaminationSystemCHENGChunyu,SHIKecan

Two-WayInteractionsBetweentheHanlinAcademyandtheImperialExaminationWANGFeiyang

CONTENTS

No.2,February2024Monthly

收稿日期:

作者简介:

2024-01-09

于涵,男,教育部教育考试院党委副书记、副院长,研究员。

(教育部教育考试院,北京100084)

摘要:传统的高考难度认知停留在统计数据层面。在网络时代,高考难度被赋予情绪意义和

社会意义。本研究探讨不同主体视角下高考难度问题的认知差异,构建测量难度、感受难度和印

象难度三维度的高考难度分析理论,分析不同维度之间的关系与相互作用机制,并应用高考难度

论,有助于更全面地衡量高考难度,深化高考内容改革,实现立德树人、科学选才、引导教学的有机

统一,服务教育强国建设。

关键词:高考;难度;测量难度;感受难度;印象难度

DOI:10.19360/j.cnki.11-3303/g4.2024.02.001

高考作为我国教育体系中举足轻重的制度,

在选拔人才、影响基础教育和学生成长、决定高

等教育资源分配以及提升社会流动性、促进社会

公平等方面扮演着关键角色。高考难度是广大

师生及社会大众普遍关心的问题,对高考功能的

发挥及公众形象产生着重要影响。2019年6月

发布的《国务院办公厅关于新时代推进普通高中

育人方式改革的指导意见》提出,科学设置试题

难度,命题要符合相应学业质量标准,体现不同

考试功能[1]

。这些都对从制度设计上更全面地衡

量高考难度提出了要求。

传统上,人们对于高考难度的讨论常停留在

统计数字层面,从一道题目是送分题还是压轴

题,到一个班级、一所学校、一个地区考试平均分

的高低,其背后都是一个个具有统计学和测量学

意义的数字。然而,进入网络时代,高考难度已

不再局限于统计意义,还被更广大人群赋予情绪

意义和社会意义。考生个体或群体对于考试难

度的感受,在虚拟空间中被不特定的主体所感

知,进而被放大,形成社会舆论,影响着更广泛的

讲,以往统计学意义上的高考难度指标,已经无法

系统解释社会对高考难度的认知,更无法回应社

会对高考难度的期望。在此情况下,亟须从多维

视角重新界定和丰富高考难度的内涵与外延,探

索构建一套内涵自洽、外延融贯的概念体系,从而

更有力地阐释高考难度调控的机理,为建立高考

难度综合调控机制提供理论支撑和实践指导。

一、高考难度的认知差异及其研究的必要性

在新形势下,社会对高考难度的认知更趋多

元;在评价高考难度高低时,时常带有较强的个

人感受色彩。这要求管理者从制度设计上更全

面地衡量高考难度——不仅要深刻认识试题难

会对高考难度的普遍认知。

2024年第2期JournalofChinaExaminationsNo.2,2024

2024年第2期

(一)不同群体对高考难度的认知差异

是对高考难度产生不同认知的三类主体。以往

对不同社会群体高考难度认知角度的研究,主要

集中在横向比较不同省份的高考难度和纵向对

比恢复高考以来不同年度的难度等方面[2-4]

广大考生受高考难度的影响最为直接,也最

关心难度问题。该群体能接触到高考试题,认为

分数反映出对努力学习和备考的回报,希望能够

在高考中取得好成绩,在竞争激烈的录取环境中

脱颖而出,进入理想的高校。考前,该群体通常

能发生的变化,行为动机来自掌握与高考难度相

匹配的学习方法和应试技巧;考后,该群体主要

化和趋势,据此开展教学、辅导学生。该群体一

般通过分析高考试题及考生的答题情况来认识

教学效果和改进教学的目的,希望能够根据高考

难度的要求,帮助学生更好地应对高考的挑战。

本校录取分数线的影响以及招选学生结构变化

的角度出发。

切。该群体关心高考难度,主要是从社会影响、

考难度的变化,评估高考难度对社会公平和教育

资源分配的影响,对现行教育政策和制度提出

改进意见和建议。除此之外,其他社会群体往往

认识来自考生或媒体等在网络上传播的关于考

生答题感受或高考录取情况的信息积累与印象

集合。

些年,随着人民群众对更加公平、更高质量教育

的期待,教育研究领域对高考难度的认识角度趋

向多元,对高考难度高低的认识也存在较大差

异。不同角度和认识差异主要是从高考的不同

功能出发,包括但不限于是否有利于高校科学选

拔人才、是否有利于高中生健康成长、是否有利

于不同区域教育均衡发展等。

有观点认为,高考作为国家选拔人才的重要

手段,只有考试内容及难度具有一定挑战性,方

能考查出学生解决实际问题的能力。例如,陈志

文提出,中高考试题应尽快打破水平化、简单化

甚至固化的倾向,加强区分度[5]

。但也有观点认

为,高考难度大则弊大于利。“高等教育已经步入

了大众化阶段,大学生毕业后成了普通劳动者,

甚至面临越来越严峻的就业压力。高考试题偏

难,对中小学教育的负面影响越来越大,降低高考

试卷难度的时机已经成熟,甚至已经是迫在眉睫

了。”[6]

吕建强指出,高考难度大有很多弊端,降低

高考难度有三个好处:一是有利于学生身心健康

发展,二是有利于真正实施素质教育,三是有利于

合理配置教育资源[7]

。王书金也持类似观点,认为

应大幅度降低高考难度,以此为突破口,让素质教

育逐步取代应试教育[6]

。郭丛斌等利用2007—

2017年国内某精英大学的本科生源数据,以一本

线作为高考难度的测度,使用双重固定效应模型

研究高考难度对县级高中学生精英大学入学机

会和入学机会集中程度的影响,发现高考难度降

低会显著提高县级高中学生的精英大学入学机

会,同时会降低少数高中对精英大学入学机会的

垄断程度,使精英大学入学机会分布更加均衡[8]

(三)构建中国高考难度分析理论的必要性

高考难度对教育、社会乃至国家的影响是深

层次、多方面的。从宏观层面来讲,高考难度影

·2·

响国家选才的质量和公平,影响教育质量和发展

方向,影响社会的流动性和稳定性,影响教育强

国建设乃至民族复兴伟业;从中观层面来讲,高

考难度影响教育均衡发展,影响教育资源配置,

影响教育教学模式,影响社会对教育的认知和期

待;从微观层面来讲,高考难度影响学生的学业

发展和素质提升,影响学生的身心健康以及职业

选择。无论是从为党育人、为国选才的考试功

能,从落实立德树人根本任务的高度,从办好人

民满意的教育的目标,还是从维护社会公平的角

度,切实重视高考难度问题都十分必要。为此,

迫切需要构建中国高考难度分析理论。

首先,高考难度问题是办人民满意高质量高

考的必过之关。党的二十大报告指出,要坚持以

人民为中心发展教育[9]

。这就要求高考紧紧抓住

人民最关心、最直接、最现实的问题,把人民是否

满意作为衡量高考质量的标准,实现好、维护好、

发展好最广大人民群众的根本利益。当前,我国

教育正加快从“有学上”向“上好学”转变,必须建

立与教育目标相匹配的高考难度分析理论,充分

考虑学生、家长、社会的实际情况和心理感受,既

反映出对学生能力素养的客观评价,又兼顾学生

的发展环境和发展需求,努力让每个学生都能得

到全面而有个性的发展。在高考难度分析理论

指导下,要让学生对高考有信心,激发学习动力

和发展潜力;要让家长对高考有信心,努力和付

出终有回报;要让社会对高考有信心,优质教育

资源得到公平分配;要让党和国家对高考有信

心,确保党的教育方针不折不扣地得到贯彻落

实,确保一批批可堪大任的栋梁之材脱颖而出。

其次,高考难度问题是健全人才培养体系的

必要环节。深化考试招生制度改革,总的目标是

形成分类考试、综合评价、多元录取的考试招生

模式,构建衔接沟通各级各类教育、认可多种学

习成果的终身学习立交桥。当前,我国高等教育

已迈入普及化阶段,高考的选拔功能也从恢复初

期的英才选拔转变为目前的大众升学、多元匹

配,高考要为不同类型、不同层次高校的人才选

拔服务。因此,一方面,高考必须满足社会发展

对创新型人才特别是拔尖创新人才选拔的需要;

另一方面,高考还要适应分类区分、多元匹配不

同应用型人才的需要[10]

。高考难度过大,则会放

大起点、差距和不平衡的影响;反之,难度太小,

则无法具有良好的区分度,失去人才选拔的基本

功能。在新时代人才培养体系下,要发挥高考选

拔的复杂功能,必须全面分析高考难度的影响因

素和反馈机制。要以培养德智体美劳全面发展

的时代新人为目标,通过调整高考内容和难度,

不断增强学生的创新能力和实践能力,提高人才

培养的连贯性和有效性。

最后,高考难度问题是构建中国特色高考理

论体系的必解之题。国外大规模考试由于利害

学和计算机技术对考试难度进行考前及考后的

动态控制。我国高考则具有极高权威性、利害性

和保密性——考前,不能按照大规模考试试卷生

成流程开展试测和组卷,而只能在命题审题阶

段,依靠专家的多轮专业操作,优化试题试卷难

度,使其尽量达到要求;考后,大多以原始分报告

成绩,不能对考生群体的分数结构(包括分数体

现出的难度数据)进行优化处理。因此,我国高

考要进行难度分析与调控,并无现成的测量学理

论可以套用,这本身就是中国独有的世界难题。

当前,以经验为主的试卷难度控制和分析方法面

临严峻挑战,已无法适应改革需求和教育高质量

发展的需要。这要求结合我国国情、教育环境、

文化背景等探讨高考难度的认识维度,运用系统

观念构建中国高考难度分析理论,以满足不同群

体对高考难度的要求,服务学生健康成长、科学

选拔人才和促进社会公平。

于涵:中国高考难度分析理论构建初探·3·

二、高考难度分析的三元结构

要重新审视对高考难度的界定,就要从横向

分度的需求。不同主体对高考难度的认知差异

表明,可以将高考难度划分为测量难度、感受难

度和印象难度三个维度(图1),并以此为基础构

建高考难度分析框架(图2)。下面系统分析三个

维度各自的内涵与影响因素。

(一)测量难度及其影响因素

一般情况下,高考难度问题是从考试测量理

论和命题实践的角度提出的。测量难度反映的

是特定考生群体在高考试卷作答中的总体表现,

也反映了试题试卷与相应考生群体学业能力之

间的匹配程度,是引起难度讨论的、不以人的主

观意志为转移的、内在的、本质的因素,是高考难

度的基本维度。在命题实践的不同阶段,测量难

度表现为不同的形式——蓝图计划阶段表现为

设计难度,试题命制阶段表现为预估难度,考后

报告与分析阶段表现为实测难度,均可以通过得

分率、合格率、难度值等方式呈现。在测量难度

指标设定上,理想的考试命题要符合教育测量学

的流程与要求。首先,在对特定考生群体进行全

面、充分了解的基础上,根据考试目的作出整体

难度设计和各科难度设计;其次,通过基于题库

的选题组卷或新题命制来实现这一难度设计,通

过高质量的难度预估及调控来校准实现的精度;

最后,依据实考统计数据核验难度设计在各题各

卷各科上的达成情况,并结合改革与试验的正面

反馈和问题与教训的负面反馈,进行全流程数据

分析,形成完整的难度分析报告。

命制一道试题、一套试卷并不难,难的是如

何在设计过程中科学地把握、掌控各种边界,使

测量难度既能够与考生群体的实际能力相匹配,

又能够完美表达命题设计思想,满足不同层次的

人才选拔要求。

决定测量难度的三个要素分别是任务内容、

任务完成者和任务设计。

任务内容包括考试科目、考查内容、题型题

量等。任务内容体现的难度是考试所固有的难

度,又称绝对难度。一般地,数学难于语文,全覆

盖考查难于抽样考查,解析几何难于初等代数,

多选题、填空题难于单选题、判断题,等等。

任务完成者(即考生群体)的学业水平不同,

在完成同一任务时的表现就有差异,体现出考试

难度的相对性。当考试的绝对难度高于考生水

平时,考生就会感觉困难;这个差值越大,考生就

越会感觉困难。反之亦然。正所谓“会者不难,

图1高考难度分析的三个维度

测量难度

感受难度印象难度

高考难度

图2高考难度的三元结构框架

·4·

就是经典测量理论中难度的样本依赖。

任务设计体现为高考试卷的命制标准与命

制水平。能否实现绝对难度和考生群体水平的

匹配,取决于能否在对不同考生群体深度把握的

基础上设置与之相适应的任务内容,也就是命制

出更适切的高考试卷。事实上,这要求在统一命

题与分别命题(既包括分区域、分省命题,也包括

针对诸如普通高考、职教高考等不同类别的命

题)的利弊权衡中作出现实选择。统一命题权

威、可比,命题水平有保障,但“一张卷”难以兼顾

不同考生群体(各区域、各省市、城乡间、各类别

等)的差异,难以更有针对性地“因材施考”。

(二)感受难度及其影响因素

感受难度是通过直接感知和观察获得的对

高考难度的主观感受和情绪反应,基于个人切身

体验,比较具体和个性化,是连接测量难度和印

象难度的显性维度。学生、家长、教师等直接关

系者最能体现考试过程中所面临的压力、焦虑、

期望等心理状态。分析高考感受难度,就是要更

好地理解和评估高考对学生身心健康和学习成

效的影响,为他们提供支持和帮助,减少由于对

高考难度的错误认知而导致的压力和焦虑过大

等问题,提升学生的成就感,提升教师的价值感,

提升家长的获得感。

主观感受既受个人经验、情绪状态、价值观

和信念的影响,也受文化环境、外部信息等因素

的影响。由于个人禀赋、学习能力、基础条件有

差别,不同的学生群体和个体对同一套试卷的感

受也会有所不同。如果学生基于自身条件,有信

心面对考试内容,对高考难度的感受就会较为积

极;反之,则会觉得比较困难。如果周边的同学

普遍认为高考难度较大,学生受到影响,也会认

为高考难度较大。如果家庭的升学期望很高,学

生感受到很大的压力,就会觉得高考难度较大。

如果所在地区教育竞争激烈,学生也会普遍感到

高考难度较高。

考生家长是高考的直接关系者,也会产生有

关高考难度的感受。家长群体对高考难度的感

受主要来自子女,包括家长通过观察得到的子女

的学习情况、准备程度和考后情绪。如果子女备

虑,家长就会产生高考难度大的感受。

教师获得高考难度感受的方式是多样的。

一是纵向比较。教师深入研究过去几年的高考

试卷,与当年高考试卷作详细对比,分析考查内

容、试题形式的变化和难度的调整,从而产生对

当年高考难度的直观感受。二是教学反馈。在

日常教学过程中,教师与学生互动,对学生的学

习表现进行评价。通过观察学生的学习动态、应

试训练和模拟考试结果,教师可以对学生的学习

情况有所了解,从而产生对高考难度的期望。三

向,预判改革对命题的影响,这也会影响教师对

当年高考难度的直观感受。这些方式相互作用,

形成教师对当年高考难度的整体感知。相比于

学生和家长,教师对高考难度的感受更加全面,

也更为深刻。

这些因素综合作用,共同塑造考试直接关系

者对当年高考难度的感受。感受难度更加主观

化、个性化、即时化,因而对不同主体而言,感受

难度往往会与考试的测量难度存在差异。

(三)印象难度及其影响因素

印象难度是基于对高考的认知、传闻、经验

以及与其他考试的难度对比等形成的一种集体

性认知,主要反映间接关系者对高考难度的理

解、评价和期待。相比于感受难度,印象难度较

为稳定持久,是构成高考难度的隐性维度。合理

的印象难度能够从学习动力、信心、成就感等诸

多方面整体赋能基础教育,减轻学生、家长及社

于涵:中国高考难度分析理论构建初探·5·

会的焦虑,减轻不必要的内卷,提升幸福感和获

得感。然而,一旦超出偏难阈值,印象难度就会

对社会信心值、满意度和幸福感形成负反馈。因

此,合理调控高考印象难度,有助于塑造社会对

高考的正确认知和评价,有助于提升高考选才促

学的公平性和有效性。

高考印象难度本质上是由测量难度和感受

难度长期积累而逐渐形成的社会认知。除此之

外,还有多种因素会对其产生影响。一是文化传

统和社会价值观。高考一直被视为决定人生出

路的重要考试。同时,社会重视学历和考试成

绩,对学历和考试成绩抱有高度的期待。这种文

化传统和社会价值观会在公众心目中强化高考

的印象难度。二是教育资源分配和教育机会公

平。公众普遍认为教育资源和机会的分配不够

平衡,相对弱势群体的学生面临的学习压力和发

中强化公众对高考印象难度的认知。三是教育

发展和高考改革。随着教育发展和高考改革的

推进,考试的内容和形式必然面临渐进、持续的

调整。每当要引入开放性更强、更具灵活性的题

应往往是——高考的难度是否增加了?这自然

会提高高考的印象难度。当然,如果改革能减轻

高考的竞争压力,如果能为学生提供更多教育资

源和支持,如果考试内容和形式更加贴近学生日

印象难度产生积极影响。

综合来看,能够提高印象难度的影响因素明

显多于能够降低印象难度的影响因素。同时,偏

难印象更容易被感知、传播和累积,但过高的印

象难度无论是对于学生健康成长、基础教育导

向、家庭教育负担还是对于社会心理反应,均会

形成持续的负反馈效应,这是当前考试工作者研

究解决高考难度问题时要面对的首要问题。

高考难度三维度的影响因素见图3。

三、高考难度各维度之间的耦合关系

从多元主体的视角重新审视和梳理难度概

念,建立测量难度、感受难度和印象难度三位一

体的高考难度概念框架,是以系统观念科学构建

高考难度分析理论的基础,也是关键一步。在此

基础上,分析高考难度各维度之间的关系与作用

机制,可以更全面地把握高考难度的实质,更清

晰地认识高考发挥育人、选才、促学作用的机理。

(一)考生主体视角下的决定机制与共振效应

测量难度、感受难度、印象难度三者紧密相

关。从考生的视角来看,三者之间相互交织,形

成不可分割的高考难度整体。

一是三者之间存在决定机制。测量难度直

接影响感受难度。一般情况下,如果试题试卷的

绝对难度较高,考生就会感受到更大的困难和挑

战,进而产生较高的感受难度,测量难度和感受

性较强,假如考生能力达不到甚至一个字都写不

强的一致性。但是,不同的科目、考试要求和题

图3高考难度三维度的影响因素

·6·

型,不同的任务复杂性、挑战性,不同的情境熟悉

度,也会使得不同学生群体对高考难度的感受有

所不同。例如,一些文科科目主观性较强,不管

是否理解试题,也不管能否解决问题,考生均能

有话可说,此时就可能出现测量难度与感受难度

不一致的情况。总的来说,感受难度是对测量难

是网络空间)上累积,会形成印象难度的变化。

因此,印象难度也可以理解为感受难度在外圈群

体中的积分。

二是三者之间存在共振效应。考生即时的

感受难度和所处环境内的印象难度也可能对最

终测定的测量难度产生共振式影响。若考生在

考试中产生的感受难度或所处环境内的印象难

度较高,其对试卷的评价就会偏向较困难的方

向,就可能增加其抵触情绪和压力,进而影响其

临场发挥;相反,若考生在考试中产生的感受难

度或所处环境内的印象难度较低,其对试卷的评

价就会偏向较容易的方向,就会促使其更加积

极、自信地面对考试,有利于其在考试中取得更

好的成绩。

(二)大众视野下的偏差放大机制与纠偏机制

高考难度是以测量难度为基础,感受难度和

印象难度相互影响、相互转化并共同制约测量难

度而形成的动态平衡的体系,三者之间存在相互

作用机制。

一是三者之间存在偏差放大机制。感受难

度与设计难度之间的差值,特别是偏难负差,会

通过网络放大和累积。“我们总是在亲眼观察世

界之前就被预先告知世界是个什么模样;我们总

是先对某一事件进行想象,然后再去切实地经历

它。”[11]

当刻板印象形成后,强化和放大更易发生。

正因为如此,每年高考季偏难方向的影响更易发

生、更易累积,以致印象难度提高易、降低难。

二是三者之间存在纠偏机制,包括主动引导

和考后回归两种纠偏。主动的难度预期引导对

修正感受难度与设计难度的偏差会起到一定的

纠偏作用,如考前发布难度保持稳定的信息,强

调难度与考情学情相适应等。此外,感受难度主

要体现于面对高考时的困难和压力,印象难度则

体现出对高考成绩的评价和回顾——学生在面

对高考时感受到较大困难,而在获得实考成绩

后,通过比较,他们向社会释放和传播的印象难

度也会回调。

(三)考试机构视域下的校准机制和赋能机制

测量难度、感受难度和印象难度都是动态变

化的。考试工作者要充分重视高考难度的校准

机制和赋能机制,合理控制高考难度。

一是校准机制,包括循环校准和迭代校准。

循环校准指的是在测量难度概念内设计难度、预

估难度、实测难度之间的校准,根据实测结果和

反馈,与命题人员进行交流和讨论,分析实际执

行过程中的问题和困难,采取可能的改进措施,

对设计和预估的难度进行校准和调整,以降低对

经验的依赖。重复设计难度、预估难度和实测难

度的循环校准,有助于不断优化测量任务的准确

性和可靠性。迭代校准指的是测量难度和感受

难度之间的校准,综合统计数据和主观感受调查

结果,分析测量难度和感受难度的匹配度,对不

匹配的方面或问题进行相应的调整和优化。在

下一轮高考中,再次评估测量难度和感受难度的

匹配度,验证任务调整的效果。这种迭代校准需

要多方参与和反馈,要依靠大量的实践数据和专

家评估,可使任务难度与个体感受更加匹配,也

可从中获取更准确、更全面的任务难度信息,为

考试命题提供更科学、有效的参考依据。

二是赋能机制。首先,深入了解学生的感受

难度和当下的印象难度,可以更好地帮助识别学

生遇到的困难和障碍。如果学生感受到较高的

难度和负面的印象,可以向他们提供额外信息和

于涵:中国高考难度分析理论构建初探·7·

任务支持,有针对性地调整难度设计策略,以避

免产生显著高于设计难度、预估难度的感受难

度,增加学生的学习自信心,帮助他们克服挑战。

其次,应积极引导社会对高考的评价,避免产生

超出偏难阈值的印象难度,提升高考的正面形

象,减轻考生的心理压力,为考生、教师、家庭、基

础教育及社会赋能。最后,通过应用教育测量技

术和主观感受评价相结合的新模式,改革考试内

容和考查方式,合理设置难度,助推高中新课程改

革,促进高中育人方式改革,更好地评价学生应对

未来学习、生活和工作中不确定性的能力素养。

四、高考难度分析理论视角下的高考演进

过程及问题分析

(一)演进过程

难度是考试的天然属性。从某种意义上讲,

考试的历史也是难度设计的历史。在教育测量

学建立以前,考试不可能成为一个相对独立的评

价体系,考试难度必然受到主观因素的牵制;即

便是在教育测量学建立之后,在一定范围内,难

度问题仍未得到彻底解决[12]

。1977年恢复高考

以来,高考难度被普遍认为是评价教育质量和学

生能力的重要指标。然而,随着社会的不断变

化,人们对高考难度的理解也在不断发生变化。

恢复高考后的10余年间,全国高校招生录取

比例较低。20世纪80年代初期,随着教育与心

理测量学的引进,有关研究人员和教育考试部门

开始利用测量理论分析试题试卷的难度[13-14]

。由

于这一时期高考考生在同龄人中占比较小,上大

学并非主要发展途径,感受难度并不为社会所重

视,印象难度亦尚未形成。

20世纪80年代中期,高考探索推行标准化

考试。首先,随着我国经济发展和全球化进程的

推进,社会对人才的需求度越来越高,高考更注重

能力考查,增加了一些挑战性问题,以选拔出更有

潜力的学生,测量难度略有提升。其次,参加高考

的学生越来越多,学习水平差异较大,高考偏难

的感受迅速形成。最后,对高考难度的讨论开始

长远发展的影响,较难的高考印象逐渐形成。

1999年,高校大扩招启动,我国高等教育向

大众化加速迈进。高校招生开始探索分类考试、

综合评价、多元录取的新模式,教育考试改革旨

在全面评价学生,减轻高考压力。测量难度有所

降低,参加高考的学生逐年增加,社会对高考难

别科目偶尔的感受难度波动所引爆,印象难度持

续增大。

量难度的调整与社会反馈不相匹配,考试分数的

提升与考生家长的感受不相匹配,考查内容和形

式的变化同公众的印象不相匹配。高考难度各维

度的总体情况是印象难度大于稳定的感受难度,

而反映出的感受难度又往往大于测量难度。印象

难度、感受难度与测量难度的负向偏差仍在随着

每年高考举办不断累积,只有程度大小的区别。

(二)问题分析与建议

高考难度在偏难方向上超出阈值,导致考生

不满、人民群众不解、教育本身不认可,考试功能

难以发挥。对命题而言,主要是因为对高考难度

的认识不够清晰,包括难度设计目标、存在的问

题、改进措施及检验方法等,主要表现为:1)难度

控制观念较为陈旧,对高考难度不重视、不正视、

不愿动、不敢动;2)难度质量控制体系不健全,存

在习惯闭门造车、习惯按部就班、习惯因循守旧、

习惯单打独斗等问题;3)命题制度有欠缺,难度

控制流程不够严密;4)难度控制能力有短板,相

关研究投入严重不足等。

作为一个全新的理论框架,高考难度分析理

论可以解释不同群体对高考难度的认识。高考

·8·

难度分析理论更是一个高考内容改革及命题评

价的分析框架,可以用于指导高考命题的难度控

制工作。考试工作者要深刻把握高考“立德树

人、服务选才、引导教学”的核心功能[15]

,基于大规

模高利害选拔性考试的特点,应用高考难度分析

理论指导命题工作实践,不断优化试卷难度结构

和试题设计,形成科学的高考难度质控体系。

一是应用高考难度分析理论构建试题试卷

测量难度的校准机制。难度的校准机制应包括

如下三个环节:1)在每年高考命题前,全面分析

当年报考人数、录取比例等方面的变化,深入开

展教情学情考情调研,全面了解当年学生与往年

学生的水平差异,应用大数据进行模拟分析,确

定高考试题试卷的设计难度;2)在命题过程中,

以设计难度为目标,从考查内容、考查要求、考查

载体等方面与往年试题进行分析对比,不断优化

试题,形成试题试卷的预估难度;3)在考试结束

之后,及时统计实测难度,将设计难度、预估难度

与实测难度进行分析对比,校准预估难度,形成

科学合理的测量难度调控与校准机制。

二是应用高考难度分析理论指导试题命制,

优化感受难度,提升测量难度与感受难度的一致

性,赋能基础教育。在保证区分效果、不降低考

查要求的前提下,优化试题的考查内容和设问角

度,为学生和教师提供良好的答题体验。通过优

化感受难度,一方面整体赋能基础教育的教与

学,激发学生的学习兴趣,培养学生的自信心,提

高获得感;另一方面进一步减少不必要的内卷和

超前超量学习的负担,减轻学生、家长乃至社会

的焦虑,提升幸福感。

三是应用高考难度分析理论引导各类主体

科学认识高考的功能,不断改善高考的印象难

度。首先,要持之以恒地合理控制测量难度,认

真处理可能对印象难度造成不良倾向的各种因

素,谨慎对待每次考试、每个学科、每套试卷、每

道试题的测量难度,为优化感受难度做好基本

功。其次,要针对印象难度形成的特点,畅通宣

传舆论渠道,加强教育信息的传递与沟通,更加

精准释放高考内容改革信号,培养和提升不同群

体的考试评价素养,让社会更加了解高考测量难

度的科学性、公正性和合理性,引导社会对高考

难度分析理论的认同,重塑高考的印象难度。

五、结束语

问题是时代的声音,回答并指导解决问题是

理论探索的根本任务。今天,高考所面临问题的

复杂程度、解决问题的艰巨程度显著增加,这对

理论创新提出了全新要求。教育考试工作者要

增强问题意识,聚焦实践遇到的新问题、改革发

展遇到的深层次问题、人民群众急难愁盼的问

题,把高考难度置于更广阔的教育体系之中和社

会发展的大背景之下加以审视,通过理论研究、

命题实践和宣传引导,建立符合国情、社会认可、

群众满意的中国高考难度理论与质控体系。这

是一项复杂艰巨的任务,需要社会各界,包括政

府、教育机构、教师、家长和学生,共同努力和持

续改进。只有树立共同的理念,才能塑造公正、

客观和科学的高考环境,让每一个学生都能在高

考中展示自己的潜力和价值,实现自己的人生目

标,助力办好人民满意的教育。

参考文献

[1]国务院办公厅关于新时代推进普通高中育人方式改

革的指导意见:国办发〔2019〕29号[A].(2019-06-11)

1777/moe_1778/201906/t20190619_386539.htmleqid=

dc5a1cb60000913200000002642f83e0.

[2]高考难度:地狱、噩梦还是天堂[EB/OL].(2023-07-

1771376135321217680&wfr.

[3]几张图告诉你,全国各省的高考难度有多高?[EB/

于涵:中国高考难度分析理论构建初探·9·

baidu.com/sid=1767937297242282907&wfr.

[4]高健,李强,徐若梅.基于系统聚类的各省市高考难

度现状分析[J].高师理科学刊,2021,41(12):32-37.

[5]陈志文.“高分通胀”加剧分数竞争再议中高考试题

的难与易[N].光明日报,2019-08-06(14).

[6]王书金.大幅度降低高考难度为实施素质教育创造

有利条件[J].现代教育科学,2009(3):106-109.

[7]吕建强.新课改背景下高考命题难度的变革[J].湖北

招生考试,2011(36):22-25.

[8]郭丛斌,张首登,万博绅.中国高考难度:大些好,还

是小些好:从县市高中学生精英大学入学机会公平的

视角[J].教育研究,2020,41(2).

[9]习近平.高举中国特色社会主义伟大旗帜为全面建

设社会主义现代化国家而团结奋斗:在中国共产党第

二十次全国代表大会上的报告[EB/OL].(2022-10-

25/content_5721685.htm.

[10]陆一.学业竞争大众化与高考改革[J].教育研究,

2021,42(9):81-92.

[11]李普曼.舆论[M].常江,肖寒,译.北京:北京大学出

版社,2018:73.

[12]边际.难度的故事[J].中国考试,2009(5):1.

[13]心理系测验研究小组.对高考试题的统计分析[J].北

京师范大学学报,1981(5):65-73.

[14]张厚粲.教育测量学:高考科学化的技术保障[J].中

国考试,2017(8):4-7.

[15]教育部考试中心.中国高考评价体系[M].北京:人民

教育出版社,2019:9-12.

ExploringaTheoreticalFrameworkforAnalyzingtheDifficultyofChineseGaokao

YUHan

(NationalEducationExaminationAuthority,Beijing100084,China)

Examination,havebeenlimitedtostatisticaldata.Intheeraoftheinternet,thedifficultyofGaokaohasgained

emotionalandsocietalsignificance.Buildingonananalysisofthedifferencesinunderstandingthedifficultyof

Gaokaofromdifferentperspectives,thisstudybuildsathree-in-onetheoreticalframeworkthatintegratesthe

measurement,perception,andimpressionaspectsofdifficultyandaimstoanalyzetherelationshipsand

dynamicsbetweenthesedimensions.Subsequently,thetheoreticalframeworkisusedtoexplorethe

evolutionarynatureoftheconceptofGaokaodifficultyandrelatedissuesinthehistoricalcontext,andin

conclusion,correspondingrecommendationsareproposed.FormulatingaGaokaodifficultyanalysistheory

basedontheChineserealityisusefulforanall-roundandbalancedevaluationofGaokaodifficulty.Itisalso

helpfulindeepeningGaokaocontentreformaswellasinachievingtheorganicallyintegratedgoalsofGaokao,

i.e.,cultivatingvirtuousandintellectuallywell-equippedstudents,selectingtalentinascientificmanner,and

providingpositiveguidanceforteaching.Ultimately,thetheorywillhelpachievethebroadergoalofbuildinga

strongnationineducation.

Keywords:Gaokao;difficulty;measurementdifficulty;perceptiondifficulty;impressiondifficulty

(责任编辑:陈宁)

·10·

2023-10-12

侯杰泰,男,香港中文大学教授。

(香港中文大学,香港999077)

摘要:面向多地区多种群的大型教育监测可对各地教育情况进行有效比较。基于对参与学

生能力国际评估项目(PISA)中各经济体测评与调查结果的分析,探讨东西方教育几个颇具启发意

义的问题,结果发现:1)一些亚洲经济体靠“背诵”学习的学生的百分比较西方经济体要低,亚洲学

生偏离好的学习原则、只懂背诵的传统看法并不符合事实;2)学生的科学成绩高低并不能决定其

对未来从事科技类工作的兴趣程度,中国学生虽然PISA科学成绩卓越,但其对未来从事科技类工

作兴趣不大;3)内在动机高有利于提高学生的学习成绩,外在工具性动机对西方学生的学习成绩

并无帮助,但是可以帮助缺乏内在动机的亚洲学生提高其学习成绩;4)相较于西方学校之间的成

绩差异较小、学校内部不同社会经济地位学生之间水平差距较大的现象,亚洲很多地区的学校则

反之,为反映某一地区教育系统的学生差异,计算校内差异+学校间差异的总和更为科学;5)从参

测地区学生10余年来的PISA成绩看,整体上使用信息科技工具较多地区的学生成绩不升反降,使

用信息科技工具较少地区的学生成绩反而上升更多,为此需要探索如何善用科技以赋能教学和学

地用实证数据推动未来教育的发展。

关键词:教育监测;PISA;问卷调查;学生能力评估

DOI:10.19360/j.cnki.11-3303/g4.2024.02.002

对于研究收集到的数据,研究者会将不同类

型的学生、学校、教育系统进行比较,这样才能更

有效地解读结果。比如要研究女生的认知特点,

不能只在女校做研究,否则就无法得知所得结果

是女生特有的认知特点,还是男女生共有的认知

特点。因此,跨地区跨种群的大型教育监测研究

[编者按]作为我国香港特区主要的考评机构,香港考试及评核局(简称考评局)自1977年成立以来,配

合香港整体教育和人才发展规划,为香港社会提供有效度、信度和公平的考试及评估服务。除了举办

香港中学文凭考试、全港性系统评估、语文能力评核、国际及专业资格考试外,考评局提出“评核促进学

习”的使命任务,近年推出文凭试诊断回馈系统、评核质素保证平台、全港性系统评估的网上题目分析

报告等,还积极研究不同的考评技术,如电脑化考试、人工智能评阅答卷、新一代公开考试支援系统等。

为使广大读者更好了解香港特区测评技术的最新发展,本刊特设专题刊发考评局及其学术合作伙伴完

的创新测评技术等议题。本专题由考评局席小明博士和教育部教育考试院陈睿研究员共同主持编撰。

专题:香港测评研究

一直备受重视。

由经济合作与发展组织(OECD)主持的学生

能力国际评估项目(PISA),自2000年开始,每三

在2018年的PISA测评中,全球共79个国家/地区

参加,其中几个重要国家/地区的数学和科学成

绩如下:中国京沪苏浙591分、590分,新加坡

569分、551分,英国502分、505分,美国478分、

502分,澳大利亚491分、503分,芬兰507分、

522分[1]

。芬兰曾被认为有着世界上最好的教育

系统,不过芬兰从2006年起,PISA成绩开始下

滑,且尚未有逆转迹象[2]

;此外,芬兰在教育均等

方面表现并不突出,高社会经济地位(SES)学生

的成绩远高于低社会经济地位学生的成绩,女生

的平均成绩远高于男生(差距达52分),是参与

PISA测评的所有经济体中男女生成绩差异比较

大的。亚洲的很多国家/地区,如新加坡、日本、中

国京沪苏浙、中国澳门、中国香港近年在PISA测

试中表现卓越,特别是中国京沪苏浙的学生在

2018年科学及数学测评中的表现尤为突出。一

些学者的观察及研究认为,PISA的数学试题偏容

易,本来是给世界各地15岁学生出的试题,其难

度只达到中国的小学水平[3-4]

本文基于PISA测试数据分析,探讨几个颇

具启发意义的问题,包括学习方法对学生成绩的

影响、学生是否有兴趣从事科技方面的工作、教

育保底工作是否具有成效、信息科技对推动教育

是否有显而易见的作用。在此基础上,反思教育

监测的局限、重点及未来方向。

一、学习方法对学生成绩的影响

人们普遍认为,靠背诵学习只能培养学生解

决简单问题的能力;只有侧重深入分析理解,才

能培养他们解决复杂问题的能力。2012年,PISA

测评调查15岁学生是使用“死记硬背”“重视练

习”(简称“背诵”),还是使用“连结不同学习点”

“找出重点”的策略学习数学[5]

。研究结果显示,

一些亚洲经济体靠背诵学习的学生比例较西方

经济体要低,具体来说:越南5%,中国香港10%,

日本12.5%,中国澳门15%,韩国17%,新加坡

22%,中国上海25%;而加拿大26%,爱尔兰28%,

美国29%,澳大利35%,新西兰35%,英国37%。

由此可见,亚洲学生偏离好的学习原则、只懂背

诵的看法并不符合事实[6]

分析显示,与一般学习理论相符,较少使用

“背诵”策略的学生具有更高的数学自信心、对

数学更有学习兴趣、学业焦虑较低,这些学生更

有能力解决深奥的数学问题[6]

。OECD在总结

PISA2012测评结果时指出,在一些学习范畴,背

诵能顺畅地解决问题、降低焦虑,年幼时的背诵

令学生对数字更敏感,有助于学生应付日后复杂

的数学问题[6]

。英美近年不断地争论是否要让学

生背诵“九九乘法表”,也反映了针对一个特定学

科,最好的学习路径是甚为复杂的议题,公众浅

表化的讨论往往主观且武断[7]

二、学生对科技类工作的兴趣

要,建设科技强国是我国政府对青年一代的期

望,希望有更多的学生未来有志于从事科技方面

的工作。由于科技与生活越来越密不可分,我们

猜测会有越来越多的学生喜欢参与科学工作。

PISA测试曾多次在问卷调查中询问15岁左

右的学生在30岁时会做什么工作。当然,学生会

考虑自己的能力、兴趣、就业市场及未来就业需

求等因素作出决定。研究结果显示:一些西方经

济体如美国,有38.1%的学生期望30岁时参与科

技工作,加拿大和英国的这一数据分别为32.9%、

·12·

28.6%[8]

,但这些国家的学生PISA科学成绩并不

突出;与之相反,一些国家的学生PISA科学成绩

较高,但他们期望参与科技方面工作的意愿偏

低,如芬兰(16.9%)、日本(18.2%)、中国四省市

(2015年京沪苏粤18.6%,2018年京沪苏浙

22.6%)、韩国(19.3%)、中国澳门(20.9%)、中国香

港(23.8%)。更为有趣的是,美国、加拿大、英国

的女生,科学成绩较低的学生,甚至对科技兴趣

不高的学生,也认为自己未来会从事科技方面的

工作,这些学生也更相信拥有科技知识和能力会

帮助他们日后升学或就业。

在较少学生期望从事科技工作的亚洲地区,

学生也普遍表现出对科学方面的兴趣相对较低,

同时,他们不认为科技能力对日后工作或升学有

用。令人诧异的是,虽然中国京沪苏粤的学生科

学成绩卓越、对科学科目的兴趣不低,也认为科

学对日后工作及升学重要,但愿意在30岁参与

科技工作的人数并不多。相对而言,中国京沪苏

浙的学生,期望从商的人数较多,特别是期望从

事教育工作的人数相对颇多,且有上升趋势。通

过分析教育大数据,我们得以了解当前青年人的

想法[9]

总体而言,学生在PISA科学上的成绩并不

与其期望从事科技方面的工作相一致,反而是认

为科学对就业或升学重要的学生更希望从事科

技方面的工作,这个因素比学生对科学的内在兴

趣及认同科学方法等更能决定学生未来的就业

取向。

针对我国学生对科技类工作兴趣不高的情

况,应该对学生进行积极引导,使他们相信“人人

可参与科技方面的工作”至为重要;对于“科技工

作是男生、科学成绩好、高社会经济地位的学生

才能参加的工作”的认识,需要向学生指出这些

想法存在的局限性。

三、内在动机、外在动机的重要性比较

多年教育监测的数据及研究可以帮助我们

不断改进教育监测的分析方法,甚至对一些教育

及心理等基础概念有新的认识。

首先,跨不同学习环境和地区的比较不一定

很准确。如果一个认为自己非常勤奋的西方学生

来到亚洲,他看到亚洲学生的勤奋努力后,可能会

对勤奋的标准有重新的判断。因此,不同文化和

学习环境的学生之间作比较,不应该直接使用均

值。从数据分析的角度,我们应该先在地区内找

到变量之间的关系(如兴趣与成绩的关系),再比

较不同地区之间这些关系的差别,这样得出的结

论比直接比较不同地区之间的均值更有意义。

其次,很多人认为内在动机(即对某一事物

很有兴趣)有助于提高学习热情及成绩,而外在

工具性动机(如学习有助于今后找到好的工作,

对升学有帮助)可能对学习有害。PISA测评及其

他一些数据显示,内在兴趣高的学生成绩确实比

较好[10-11]

。至于工具性动机,它对西方学生的成

绩并无帮助;但对缺乏内在动机的亚洲学生而

言,高工具性动机(相信学习能帮助升学及日后

找到好工作)可以促进学生取得更好的成绩。上

述东西文化差异的比较结果,是通过先分析动机

与成绩在每个地区的关系,然后再比较这些关系

在不同地区的差别得到的。这种比较考虑到不

同地区学习和社会环境的差异,往往更有意义。

四、学校之间差异、学校内差异及教育“保

底”工作成效

在教育领域,我们常提及“拔尖”和“保底”,

由于多数人更注重“拔尖”工作,所以“保底”工作

经常被忽略。教育监测可以让我们了解教育“保

底”工作的成效。

侯杰泰:大型教育监测:误解与启示·13·

在教育领域,“卓越”与“均等”是常用的监测

指标。前者一般用某单位(如学校、城镇)的分数

均值来衡量,后者是指不同社会经济背景中学生

的分数差异很小,也可以用每所学校内分数的差

异作为指标。对某一学校来说,除了提升学校分

果学校有一些学生的成绩相对较差,那么学校分

数的方差(差异)会相对较大,也就意味着教育

“保底”不成功,而这些成绩较差的学生通常是校

内社会经济地位较低的学生。

在PISA2018的研究中,OECD将参与测试国

家/地区的学生总成绩方差定为100[1]

,具体研究

分析见表1。在校间成绩方差方面:芬兰的学校

之间成绩差异最小,可以理解为芬兰没有名校,

也没有成绩很差的学校;爱沙尼亚、英国、美国等

国家/地区,学校间差别也比较小;相对而言,日

本、新加坡、中国香港的学校之间的成绩差异较

大。在校内成绩方差方面:美国、芬兰、英国、新

加坡的差异较大,一方面说明学校能有教无类,

招收不同能力的学生;另一方面也要求学校加强

个别学生辅导,以帮助校内不同能力的学生都能

追上;相对而言,中国京沪苏浙、中国澳门、日本

做得比较好,同一所学校的学生水平差距不大。

基于上述分析,为反映某一地区教育系统的

学生差异,计算校内差异+学校间差异的总和更

为科学。表1显示,中国京沪苏浙、中国澳门、爱

沙尼亚的学校教育“保底”做得相对比较好,学生

间差异不严重。卓越(分数均值高)、均等(高低

社会经济地位的学生成绩相当,男女生成绩差别

不大)、教育“保底”(学生分数差异/方差低)等,

都是了解教育系统特性的重要指标。为深入地

了解不同教育系统的特点,需要采用多个指标,

并与不同地区做更多比较。

五、信息科技对促进教育的作用

20世纪90年代末,在微电脑进入学校后,

当时社交媒体及网上搜寻工具等尚未出现,但

教育界已经开始试行及推动将信息科技用于教

育。PISA在2015年基于10多年的学生能力表

现数据,比较信息科技使用较多与使用较少的

两类学生的表现,研究显示:丹麦、荷兰、挪威、

西班牙、新西兰、瑞典等国家/地区的学生在学校

使用信息科技工具较多,在家也经常使用;韩

国、日本、新加坡等国家/地区的学生在学校和家

里使用信息科技工具都较少。从上述国家/地区

10余年的PISA成绩看:整体上使用信息科技工

具较多的国家/地区,学生成绩不升反降;使用信

息科技工具较少的国家/地区,学生成绩反而上

升更多。

为什么信息科技工具没有提升学习效果?

这当然有不同解释:一种解释是,我们使用了符

合世界发展趋势的新科技,但面对传统古旧的学

习内容,新科技发挥不了它们的功能;另一种解

释是,新科技确实增加了一点学习趣味(如声音、

画面、互动等),但它对深入了解学习内容的帮助

而导致成绩下滑。

国家/地区

芬兰

爱沙尼亚

英国

美国

中国澳门

韩国

中国京沪苏浙

中国香港

新加坡

日本

OECD平均

校间方差

6.7

16.8

18.4

19.7

25.4

30.7

32.9

33.7

35.5

36.7

28.6

校内方差

94.0

70.7

84.5

100.2

59.7

77.2

45.1

67.9

84.6

60.0

71.2

总方差

101.8

89.0

103.3

119.6

87.2

108.0

78.2

101.9

122.1

97.0

100.0

表1不同国家/地区及OECD平均的

学生成绩在校间、校内的方差

·14·

信息科技改变了人们的生活,我们不可能

不用信息科技于教学;但我们至今所采用的方

法,可能仍有很多局限。我们要小心谨慎,因为

很多现行的方法可能没有实效,需要在实践中不

断总结经验,探索怎么样善用科技以赋能教学和

学习。

六、教育监测的局限、重点及未来方向

在数字时代,善用大数据监测教育质量,是

世界上几乎所有教育部门都在进行的工作,以便

推出合适的教育政策和干预措施。略具规模的

教育监测系统在测试的同时,都使用了学生问卷

等工具,因为评估出谁的成绩更好,解决不了根

本问题,只有配合使用问卷,了解分析不同的教

育系统(地区、学校)表现优劣的根源,才能有针

对性地加以改进。

颇具学术性,如动机、自信、焦虑[11-16]

。随着时代

的发展和进步,问卷收集的内容应更契合时代特

点,大型教育监测的思路及内容也应随之改变,

比如对一些公众关系的社会议题(如网络成瘾、

网络霸凌)进行调研,并借此推动教育改革。大

题(如地区学生课外活动的多寡),而不是某个学

校个别教师的教学能力。近几年,诸如学生上学

问题,也进入监测问卷。

虽然教育及学习心理学不断出现新的学术

概念,比如自我调控、元认知、创业素养等[17]

;但我

们依然不应忽略对一些基本因素的调查,比如早

餐习惯(对成绩效应量常达0.5,一般教育改进只

是0.2或0.3)、视力(调查学童是否有足够的户外

活动,让阳光刺激视网膜释放多巴胺抑制眼轴增

身体健康是情绪、动机等心理因素的物质基础,

的教育[18]

关于问卷的使用,由于问卷由学生、教师自

己填答,容易猜测怎样答较佳,所以这类问题只

能用于低风险的评估计划。只要学生有可能受

计划内被监测单位(比如学校)的影响而依据较

佳方向回答,整个计划就会失效,研究结果也将

失去指导作用。相对而言,学业测试因为有监考

人员而可以减少学生作弊,但问卷研究很难避免

学生虚假作答。

教育研究者往往有兴趣了解教师教学法如

何影响学生学习及成绩(如探究式教学能否提高

学生成绩);但这类研究的困难在于,学生成绩是

过去10多年教师和家长共同影响下的成果,教师

某一学年的教学法对学生成绩影响有限。因此,

这类问卷得出的结论存在比较严重的局限性。

因为大部分学生只有在一所学校、一种文化背景

下的学习经验,所以只能与同班同学作比较,这

也令很多类似题目在用于跨校、跨地区比较时的

表现差强人意。从统计学的角度来说,数据的跨

校、跨地区方差(差异)通常较低,因此必须采用

较为复杂的统计分析方法进行分析。

鉴于上述原因,建议将传统心理学问卷中常

用的Likert量表改为信息及行为类问题,以获得

学生更加具体和丰富的作答信息。例如,将Likert

五点量表的问题“你经常吃早餐吗?”改为“你一

个星期有多少天吃早餐?”。

大型教育监测提供可比较的数据,令我们更

深入地了解各个教育系统的强弱,得以有针对性

地加以改进。多年的监测数据也对传统设计及

议题。在研究过程中,我们亦应该对研究方法有

侯杰泰:大型教育监测:误解与启示·15·

所反思,并谋求改进,未来仍需要大家共同努力,

通过探索、实践、分析,再作改进,以更好地用实

证数据推动教育的改革与发展。

[1]OECD.PISA2018results:whatstudentsknowandcan

do:volumeⅠ[M].Paris:OECDPublishing,2019.

[2]OECD.Programmeforinternationalstudentassessment

(PISA):resultsfromPISA2018,countrynote,Finland

cations/PISA2018_CN_FIN.pdf.

[3]丁道勇,周金燕.PISA数学有多难:对上海PISA成绩

的第三种解读:基于北京市两所小学师生的探索性研

究[J].中小学管理,2015(10):24-27.

[4]文卫星.测试很简单,关键看问题[J].上海教育,

2013(35):35.

gagement,driveandself-beliefs:volumeⅢ[M].Paris:

OECDPublishing,2013.

[6]OECD.PISAinfocus:ismemorisationagoodstrategy

www.oecd-ilibrary.org/is-memorisation-a-good-strategyfor-learning-mathematics_5jm29kw38mlq.pdfitemId=

%2Fcontent%2Fpaper%2F5jm29kw38mlq-en&mimeType

=pdf.

[7]BOALERBJ.Fluencywithoutfear:researchevidence

onthebestwaystolearnmathfacts[R/OL].[2023-03-

pectationsinAsianandwesterntop-performingeduca‐

tionalsystems[J].JournalofVocationalBehavior,2022,

135:103718.

[9]GUOL,HAUK-T.Adolescentsliketobedoctorsand

nursesTwo-decadetrendsin61economies[EB/OL].

[10]LIUY,HAUK-T,LIUHY,etal.Multiplicativeeffect

ofintrinsicandextrinsicmotivationonacademicperfor‐

mance:alongitudinalstudyofChinesestudents[J].

JournalofPersonality,2020,88(3):584-595.

[11]LIUY,HAUK-T,ZHENGX.Doesinstrumentalmoti‐

vationhelpstudentswithlowintrinsicmotivationcom‐

parisonbetweenWesternandConfucianstudents[J].In‐

ternationalJournalofPsychology,2020,55(2):182-

191.

[12]HAUK-T,MARSHHW.Academicself-conceptand

achievement[M]//WRIGHTJD.Internationalencyclo‐

pediaofsocialandbehavioralscience.UK:Elsevier

Oxford,2015:54-63.

[13]MARSHHW,HAUK-T.Big-fish-little-pondeffect

onacademicself-concept:across-cultural(26coun‐

try)testofthenegativeeffectsofacademicallyselec‐

tiveschools[J].AmericanPsychologist,2003,58(5):

364-376.

[14]MARSHHW,HAUK-T.Explainingparadoxicalrela‐

tionsbetweenacademicself-conceptsandachieve‐

ments:cross-culturalgeneralizabilityoftheinternalexternalframeofreferencepredictionsacross26Coun‐

tries[J].JournalofEducationalPsychology,2004,

96(1):56-67.

[15]MARSHHW,HAUK-T,CRAVENR.Thebig-fishlittle-pondeffectstandsuptoscrutiny[J].American

Psychologist,2004,59(4):269-271.

mostusefulaffectiveconstructs:cross-cultural,psycho‐

metriccomparisonsacross25countries[J].Interna‐

tionalJournalofTesting,2006,6(4):311-360.

[17]OECD.OECDFutureofeducationandskills2030:

OECDlearningcompass2030[R/OL].[2023-03-03].

OECD_Learning_Compass_2030_Concept_Note_Se‐

ries.pdf.

[18]侯杰泰.考试是科学也是哲学:写在《中国考试》

创刊30周年之际[EB/OL].(2021-09-02)[2023-

KwqKtNl7Q.

·16·

Large-scaleEducationMonitoring:MisunderstandingsandImplications

HAUKit-Tai

(TheChineseUniversityofHongKong,HongKong999077,China)

Abstract:Large-scaleeducationmonitoringofmultipleregionsandpopulationsallowsforeffective

ProgramforInternationalStudentAssessment(PISA)invariouseconomies,severalthought-provokingissues

wereexamined.Theresultsshowedthat:1)ThepercentagesofstudentsinsomeAsianeconomiesrelyingon

didnotdeterminetheirinterestinfutureSTEM(science,technology,engineering,mathematics)jobs.

AlthoughChinesestudentshadexcellentPISAsciencescores,theywerenotinterestedinfutureSTEMjobs.

academicperformanceoflowintrinsicallymotivatedAsianstudents.4)ComparedwiththesmallWestern

differencesinacademicperformanceamongschoolsandlargerdifferenceswithinschools,manyAsiansystems

hadtheopposite.Calculatingthesumofintra-andinter-schooldifferencesismorevaluabletoreflect

participatingeconomiesoverthepastdecade,studentsinsystemsthatusemoreinformationtechnologytools

declinedintheirperformance.Conversely,studentsinsystemsthatusedlessinformationtechnologymade

moreacademicimprovement.Itisnecessarytoexplorehowtousetechnologytoempowerteachingand

learning.Inadditiontofocusingonthemonitoringcontentsandresults,weshouldfurtherreflectonand

improvethesurveyquestionnairestouseempiricaldatatoenhanceoureducationaldevelopment.

Keywords:educationmonitoring;PISA;surveyquestionnaires;studentabilityassessment

(责任编辑:张丽)

侯杰泰:大型教育监测:误解与启示·17·

译者简介:

MarioPiacentini,男,经济合作与发展组织(OECD)高级分析师。

吴泓霖,男,教育部教育考试院助理研究员。

的前沿焦点。PISA2025对数字化学习技能进行测评,目的是更好地了解学生需要掌握哪些技能

学习技术更好地应用于教育。阐述PISA数字化学习技能测评的理念和方法,包括目标构念、学生

模型、测评单元、证据规则、分数报告等。为使教育者了解学生如何思考和调节自己的学习,OECD

研发学习技能创新测评平台(PlatformforInnovativeLearningAssessments,PILA),为教育者提供互

动技术和有研究支撑的工具,对学生的成长进行评估。

关键词:考试数字化;PISA;数字化学习技能;创新测评;自主学习评价

DOI:10.19360/j.cnki.11-3303/g4.2024.02.003

引言

数字化学习技术正在重塑人们的学习方式,

它赋予学习者极大的自主性,通过不同的媒体形

式使人们十分便利地获取大量的信息,影响人们

构建知识体系的过程。这些技术将人为探究与

计算机能力相结合,为学习提供新的、更高效的

形式,让个体学习者得以锻炼和培养自己的技

能、分析和组织信息、与他人合作。然而,在为学

习赋能上,并非所有的数字化资源都具有相同的

价值。目前,很多课堂上使用的所谓数字化工

具,只是简单地把学生的练习活动变成某种数字

化形式,这些活动实际上通过纸笔也能进行。数

字化资源的更大价值潜藏于那些能够产生互动

的学习环境中,学生可以利用各种直观的表征方

式展现自己的想法。这些数字化的建构工具不

仅使学生能够对原本难以接触到的复杂现象进

行探索,而且可以提供即时反馈,让学习者能够

检验自己理解是否到位,进而不断迭代形成问题

的解决方案,如Scratch、NetLogo、Code.org等学习

应用程序已经建立全球性的学习社区。现在,数

以百万计的学生使用这些工具进行主动探索,让

性化学习内容。这些工具带动的学习过程与学

习的建构理论一致,都强调学习者在知识构建和

认知发展过程中发挥积极作用,也强调教师将身

份转变为学习促进者而不是信息传授者[1]

。建构

主义理论认为,当学习者做一个对自己有意义的

项目时,能够达到最佳学习效果[2]

。在构建一个

工件(artefact)的过程中,学习者将构想、概念及

(经济合作与发展组织,巴黎75775)

吴泓霖译

技能付诸行动,当学习者与工件产生互动、不断

完善时,他们的想法、对概念的理解以及技能又

会进一步发展。数字世界大大增加了以做促学

的机会。

一、PISA增设数字化学习技能测评的背景

教育系统的基本目标是培养学生的学习技

能。无论是正式的还是非正式的教育环境,学习

和解决问题都与技术发生越来越多的联系,这意

味着年轻一代必须做好准备,才能在数字世界中

有效地使用技术,主动参与其中并发挥作用。近

年来,许多国家在将数字技术融入教学方面投入

大量资金,COVID-19的全球大流行进一步刺激这

些方面的投资,因为学校经常面临停课,教学活

动不得不大规模地转至线上,给许多学生的学习

活动带来影响。然而,目前全球教育界依然缺少

充分的证据证明这些投资是否真正促进学习,是

否真正帮助学生形成运用技术自主学习的能力。

如今在网上获取学科知识已十分便利,对学

性大为降低,取而代之的是对他们学习新知识的

能力进行测评。然而,目前还缺乏证据证明教育

系统能够成功地促进学生有效学习所需的认知、

元认知和情感技能的发展。PISA2025对数字化

学习(learninginthedigitalworld)技能进行测评,

目的是更好地了解学生需要掌握哪些技能和策

略,才能成为真正的自主学习者,同时提供来自

习技术更好地应用于教育。

基于学习者在学习过程中的认知、元认知和

情感过程,这项测评将生成多个测量值。作为测

评的一部分,学生需要完成2项拓展的学习任务,

预计耗时1个多小时。学生运用开放式学习平台

上的信息和工具开展任务时,将有一位虚拟导师

提供自动化、智能化的反馈,鼓励学生进行一定

次数的操作。基于学生解决开放性问题的过程,

这些过程性数据,可以推断学生与这些开放式学

习系统互动的有效性,包括测量学生在多大程度

对自己逐渐形成的认知进行监控和准确判断、根

据反馈调整策略、评估各种工具和信息与目前学

习目标的关联性、整理和概括自己的新认知用于

展示所学内容。这项测评还收集学生在学习新

主题或尝试在线解决复杂任务时如何保持专注

和激励自己的信息。PISA2025数字化学习技能

测评还使用问卷,收集学生在课堂内外参与数字

学习活动的背景信息。各国在帮助学生自主培

养使用数字化工具所需素养的措施是不同的,其

有效性如何,PISA2025也将提供测量和比较的数

据。高质量、国际化的数据收集工具和数据分析

手段,能够引导教育政策向数字化赋能的方向转

变,帮助一线教师确定目标和步骤,以便将技术

更好地融入课堂。

二、PISA2025数字化学习技能测评方法

(一)领域分析和目标构念

领域(domain)分析包括对人们在目标领域

所使用的概念、语言和工具进行盘点,对人们使

用目标知识和技能所针对的问题和情境进行识

别,界定相应领域情境下良好表现的特征。为

此,OECD秘书处成立跨学科专家组,专门进行这

项工作。

在PISA2025数字化学习技能测评的领域分

析中,一个关键问题是学生在考试中究竟应该学

习什么和使用哪些工具。在数字世界,有许多工

具能够帮助实现建构主义理论所提倡的积极和

情境化的学习体验,如许多学生用Scratch设计数

字化动画[3]

、用PheT虚拟实验室探索科学现象[4]

专家组构想学生在测评中应该产出哪种工作成

MarioPiacentini:PISA数字化学习技能测评·19·

果作为学习证据时,参考了STEM领域的实践案

例。针对学生如何使用这些工具的问题,已有相

关研究从实证和理论的角度,为界定熟练学生的

实践方式和初学者遇到的典型困难提供重要参

考[5-6]

。此外,在教学设计和学习进程领域也出现

很多可靠的证据,帮助专家组将这项新型测评的

学习目标聚焦到科学实践上,包括实验、建模、设

计算法解决方案等。在这些实践中,相对容易确

和学习的概念和操作,如变量控制策略或条件逻

辑的使用等。

专家组将PISA2025提出的数字化学习技能

定义为使用计算机工具参与知识构建和问题解

决迭代过程的能力,体现为基于计算机进行科学

探究实践时能够进行有效的自我调节学习;将数

字化学习定义为一种反复的过程,也就是把学习

看作一个整体的、非线性的过程。换言之,学习

是一个复杂的过程,要求学习者成为积极的参与

者,并逐步建立自己的认知。该定义将构建知识

和解决问题视为建构主义学习的特定形式。在

建构主义视角下,学习者对自己的学习负责,采

取行动寻找各种问题情境的解决方案,并且利用

各种资源增进理解。根据该定义,问题解决并不

是简单地重现某些领域知识,从而为某一陌生的

问题情境提供解决方案;而是使用外部资源对自

己的知识进行补充,从而达到特定目标的过程。

在这项测评中,学生利用各种支架(scaffold)和从

其他各种外部资源中学习的机会,逐步到达他们

的最近发展区(zoneofproximaldevelopment)。

在测评中使用计算机工具,意味着学习者基

于自己正在形成的知识和理解,形成各种直观的

计算机化表征并加以改进,通过这种方式参与到

构建知识和解决问题的过程中。这些计算机化

表征可以有多种形式,但对PISA2025测评而言,

必须是计算机能够执行的模型(如各种概念图)

或算法解决方案(如各种程序)。

该定义还指出学生进行数字化学习时必须

具备两项能力。第一项是自我调节学习能力,这

是学习者参与任何自我调节探究过程的基本素

养[7]

。从本质上讲,自我调节学习指人们在学习

时对自己的元认知、认知、行为、动机、情感等多

种心理过程的监控和控制[8]

。在数字化学习环境

中,各种资源不仅唾手可得,而且还能得到即时

反馈[9]

。面对大量的非结构化信息,学习者非常

容易分心,因此自我调节学习能力非常重要。第

二项能力是计算和科学探究操作能力,这一能力

引导学生运用计算机工具创造新知识、解决新问

题,学习者必须能够运用计算机化的方式思考问

题,进而用好数字化情境。

(二)学生模型

数字化学习技能测评的学生模型由三个互

认知监控与认知调节过程、非认知调节过程。见

图1。

第一个维度是计算和科学探究实践。用不

同类型的问题测评以下3个方面的内容:1)能否

分解问题并识别模式。向学生呈现一些复杂的、

可分解的问题,要求他们定义和排序解决步骤,

并识别重复出现的模式。2)能否开展实验和分

析数据。提供不同的界面供学生做实验、收集数

据、将数据可视化,如某个测评单元要求学生编

写一个向用户推荐电影的应用程序,为了达到该

目的,学生必须调查用户过去看过哪些电影、如

何评价的这些电影及电影的哪些特点与他们的

通过评估学生能否迭代制作功能实用的程序或

者模型,可以得到证据。如在某个测评单元,要

求学生建立一个病毒传染的计算模型,用于预测

疫苗接种数量如何影响新感染人数。在测试中,

学生创建不同的计算机应用程序,用于发现系统

·20·

·分解问题并识别模式

·开展实验和分析数据

·构建和调试计算机应用程序

·监控进度和调整适应

·评估知识和行为表现

·保持任务参与度

·管理情感状态

计算和科学

探究实践

元认知监控

与认知调节过程

非认知调节过程

图1数字化学习技能测评的学生模型

的工作方式、设计问题解决方案,或者作出预测

以为决策提供参考。

第二个维度是元认知监控与认知调节过

程。为了在该维度获得有效证据,需要分析学生

如何与虚拟导师互动以填补他们对问题和工具

的理解差距,还需要评估学生在多大程度上可以

监控完成学习任务的进度。在开放的学习情境

中,学生可以请虚拟导师为自己提供一些类似问

题的解决案例或更为明确的提示。在该维度,监

控进度和调整适应的证据主要通过评估学生何

时决定寻求帮助以及评估其是否适应这种方式,

即评估学生是否根据帮助采取行动;还可以检查

学生何时选择测试他们的解决方案,以及如果测

试显示出一些问题,他们是否作出改进作为测评

的证据。在评估知识和行为表现方面,需要在测

评单元结束时让学生评估他们工作的不同方面,

然后对他们的自我评估能否反映真实表现进行

再评估。

第三个维度是非认知调节过程。有些行为能

够反映学生想要做好和学好的决心,通过收集与

行测评。例如,可以分析学生在虚拟导师提供帮

助时是否认真遵循指导,以及学生是否决定查看

他们无法解决的任务解决方案。虚拟导师会在测

评单元的不同阶段介入,要求学生报告他们的感

受,这些自我报告可以用于建立情绪调节措施。

(三)学习单元的构成

为了生成学习过程的证据,测试单元的构成

需要具有创新性。由此设计每个学习单元由五

30分钟,见图2。

在开始阶段,由虚拟向导介绍该单元的整体

学习目标,让学生通过辅导课程的形式进行体验

(如“我将教你如何……”)。第二阶段是评估已

有知识,学生要完成一项预测试,目的是测评学

生是否提前知道本单元要学习的概念和操作。

第三阶段是一项教程,学生需要熟悉数字化学习

界面的核心功能等。第四阶段为学习阶段,包含

一系列分离式的、精心设计的任务,帮助学生做

图2数字化学习的测试单元示例

介绍整体

学习目标评估已有知识教程学习活动

30分钟

挑战

自我评估

MarioPiacentini:PISA数字化学习技能测评·21·

务。在最后的挑战阶段,学生需要通过解决更加

复杂的、包含多个步骤的问题,展现自己在教程

和学习阶段所学的内容。挑战性任务结束后,学

生完成一些自我评估问题,并报告他们在这个学

习单元中的情绪状态。这种复杂的设计旨在让

学生沉浸在真实的数字体验中,激发他们学习新

事物的兴趣。需要注意的是,每个学习单元都包

含一组定义明确的概念和操作,学生可以按照连

贯的教学顺序掌握这些概念和操作。

(四)证据规则

通过检查学生在学习和挑战阶段作答问题

的正确程度,可以评估他们工作成果(即程序

和模型)的完整程度;通过基于过程数据(日志

文件)检查学生在任务过程中所采用的策略,

可以收集学生各项目标技能发展程度的证据并

作出推断。数字环境学习框架包含详细的证据

规则表,用于描述如何解释以上观测指标和报告

分数。

使用过程数据进行评分比较简单。例如,在

建模单元,过程数据主要用于检查学生是否完成

所需的步骤(如通过足够次数的实验,得到基于

证据的两个变量之间关系的结论)。对自我调节

学习的评估而言,使用过程数据也是必需的,但

却更加复杂,因为对任何关于自我调节学习行为

的潜在证据进行评估,都必须考虑到学生在之前

和之后的行动,以及行动发生时情境的状态。例

如,只有当学生真正需要帮助、且只有当学生按

照虚拟导师的建议操作时,才将学生向虚拟导师

寻求帮助的行为视为“监控进度和调整适应”的

证据。关于自我调节学习行为,专家组研制复杂

的证据规则以评定潜在证据。此外,作为证据规

则的补充,还将数据挖掘方法用于试测数据,以

发现自我调节学习行为的其他证据。

数字化学习技能测评使用的统计模型比以

往PISA测试使用的模型更加复杂,主要挑战在于

测量值之间存在局部依赖,即任务之间并非互相

独立。学生在先前任务中的行为和采取的行动

可能影响他们的后续表现。例如,那些认真执行

教程和学习任务的学生,一般在最后的挑战任务

中表现更好。这违背了标准题目反应模型(IRT)

局部独立性假设,因此需要一个足够灵活和稳定

的模型以解释不同任务观测指标之间的依赖性。

统计模型的另一个挑战是非随机缺失数据的生

成。有些自我调节学习的指标是以学生选择寻

求外部资源支持为前提,但是只有少数学生会作

出这种选择,那些完成任务时遇到困难的学生更

有可能寻求资源支持。基于树的题目反应模型

(tree-basedIRT)有望解决相互依赖和非随机缺

失数据的问题[10]

,目前正在评估这种解决方案。

以IRTrees模型为例,该模型通过节点将序列化

的过程转变为树状结构,每个分支都以二进制的

末端节点结束,通过这种方式可以处理复杂任务

内部的协方差。目前,研究小组也在考虑使用动

态贝叶斯网络作为建模的替代方法。

(五)分数报告

数字环境学习的构念明显是多维度的,涉及

不同的认知和自我调节学习的过程。这项新测

评还有创新特征,即测量学生在测评体验中学习

的程度。因此,基于测评数据的报告生成多项分

数和指标,包括:1)基于测试表现的量表分及构

念的两个维度(计算和科学探究实践,元认知监

PISA测试一样,该量表按成绩等级组织。2)测试

中学习情况的测量值。将学生在预测试(测量学

生对要学习的概念的提前了解情况)的表现与他

们在学习和挑战阶段的表现进行比较,可以得到

这些测量值。3)非认知调节过程的指标,通过情

境化的自我报告题目进行测量。4)使用数字化

资源学习的体验、态度和倾向的指标,通过PISA

学生调查问卷模块中的自我报告题目进行测量。

·22·

三、从大规模测评到课堂:数字化学习技能

的形成性评价

PISA的评价结果给政策制定者和社会大众

提供本地区学生与世界其他地区学生的比较数

据,有关部门可以借鉴评价结果优异地区的政策

和做法,实施系统的改革。然而,像PISA这样的

大规模测评所提供的信息也是有限的。为监测

学生能做什么或者需要做什么才能进步,需要开

展形成性评价。因此,OECD决定投资一个新项

目,为形成性评价提供材料,教师也可以使用这

些材料帮助学生发展关键能力。这个新项目即

“创新学习评价平台”(PlatformforInnovative

LearningAssessments,PILA),PILA使用学习分析

技术(learninganalytics)为教育者提供互动技术

和有研究支撑的工具,对自主、审辨的学习成长

进行评估,使教育者不仅了解学生知道什么,而

且了解学生如何思考、如何调节自己的学习。

PILA包括模块化结构,每个模块聚焦具体的

素养(如建模、系统思维、数据分析等),通过数字

接口(应用程序)模拟现实世界探究中使用的工

者学习资源),帮助学生在开放的情境中完成任

务,并向他们提供有关自身成就的反馈。PILA还

通过解释学生在开放情境中的互动情况分析学

生的表现,并在多维仪表盘(multidimensional

dashboards)中提供概览;教师可以通过实时调用

仪表盘,为遇到困难的学生提供帮助,或经过分

析后给学生布置个性化作业,或对整个课堂的情

念和操作的掌握情况,以及他们组织和监控学习

任务、使用资源、应用其他重要综合技能的能力。

每个PILA模块都提供专门的资源,用于帮

助教师了解模块的评价内容,为学生选择或构建

合适的评价单元,或者创建新的定制任务,在报

告仪表盘中解释学生表现,解决学习者面临的共

同挑战,并将PILA与其他教育活动联系起来。

PILA的首套应用程序与PISA数字化学习技能测

评框架相对接,为教师提供支持学生发展技能的

有效方式。

四、结论

世界各国的教育日益重视培养学生构建知

识和自主学习的能力。有研究表明,深度学习是

通过个体与客体以及周围的人积极互动而主动

构建的,并不是通过从外部世界接收信息被动获

得的。精心设计、积极主动的学习体验有助于学

生在参与活动和项目时积累知识。通过数字技

术,学习者在课堂上可以参与各种形式的信息互

动,还可以参与实验工作、处理大量数据、发挥创

意及创造性地解决问题等,从而真正促进教育向

基于探究的课堂学习活动转变。数字化学习情

境还支持协作活动,并向用户提供个性化反馈。

此外,数字化学习可以帮助学生自主完成交互

式、基于探究的任务,培养学生对自己学习负责

的态度,并帮助他们发展21世纪的重要技能,如

批判性思维、创造力、毅力和团队合作。

然而,利用数字资源学习也给学生带来巨大

挑战。为了取得成功,他们需要选择如何构建解决

方案流程,探索替代解决方案路径,提高对自身知

识和技能的认识,制订更能有效解决问题的策略,

以及有效应对挫折和困惑。虽然人们普遍认为这

些学习技能很重要,但关于是否为学生提供了充

分的机会来发展这些技能的国际证据非常有限。

PISA2025的测评结果将提供国际化、可供比

较的发现,不仅探讨世界各地的学生在何种程度

上能够理解复杂现象并使用计算机工具解决问

题,而且探讨学生在何种程度上能够通过自我调

节学习的产出过程来做到这些。这种对自主学

MarioPiacentini:PISA数字化学习技能测评·23·

21世纪教育目标[11]

相一致,并将形成多维度的测

量标准,展现学生在这个日益数字化的世界中是

如何学习的。PILA项目正在研发的形成性工具将

支持各个地区和学校培养学生的自主学习技能。

[1]KAFFASHHR,KARGIBANZA,KARGIBANSA,et

al.AcloselookintoroleofICTineducation[J].Interna‐

tionalJournalofInstruction,2010,3(2):64-82.

[2]PAPERTS.Mindstorms:children,computersandpower‐

fulideas[M].NewYork:BasicBooks,1980.

[3]MALONEYJ,RESNICKM,RUSKN,etal.Thescratch

programminglanguageandenvironment[J].ACMTrans‐

actionsonComputingEducation,2010,10(4):1-15.

[4]WIEMANCE,ADAMSWK,PERKINSKK.PhET:

simulationsthatenhancelearning[J].Science,2008,

322(5908):682-683.

[5]BRENNANK,RESNICKM.Usingartifact-basedinter‐

viewstostudythedevelopmentofcomputationalthink‐

ingininteractivemediadesign[C].Vancouver:Paper

presentedatannualAmericanEducationalResearchAs‐

sociationmeeting,2012.

[6]DEJONGT,BEISHUIZENJ,HULSHOFC,etal.Deter‐

minantsofdiscoverylearninginacomplexsimulation

learningenvironment[M]//GARDENFORSP,JOHANSSON

P.Cognition,education,andcommunicationtechnology.

London,NewYork:Routledge,2014:257-284.

[7]DEJONGT,NJOOM.Learningandinstructionwith

computersimulations:learningprocessesinvolved[C]//

DECORTEE,LINNMC,MANDLH,etal.Computerbasedlearningenvironmentsandproblemsolving.Ber‐

lin,Heidelberg:Springer,1992:411-427.

[8]PANADEROE.Areviewofself-regulatedlearning:six

modelsandfourdirectionsforresearch[J].Frontiersof

Psychology,2017,8:422.

[9]JRVELS,HADWINA.Examiningtheemergence

andoutcomesofregulationinCSCL[J].Computersin

HumanBehavior,2015,52:559-561.

[10]JEONM,DEBOECKP.Ageneralizeditemresponse

treemodelforpsychologicalassessments[J].Behavior

ResearchMethods,2015,48(3):1070-1085.

[11]OECDlearningcompass2030:aseriesofconceptnotes

2030-project/contact/OECD_Learning_Compass_2030_Con‐

cept_Note_Series.pdf.

PISAInnovativeAssessmentsofLearningSkills

MarioPIACENTINI

(OrganizationforEconomicCooperationandDevelopment,Paris75775,France)

Abstract:Inthecontextofdigitaleducation,theevolutionoflearningmethodsisaccelerating,andlearning

skillsassessmentisincreasinglybecomingafocusofattentionininternationaleducation.PISA2025evaluates

digitallearningskillswiththeaimofbetterunderstandingwhatskillsandstrategiesstudentsneedtomasterin

ordertobecometrulyautonomouslearners,whileprovidingrelevantinformationfromtheinternational

educationindustrytohelpbetterapplynewlearningtechnologiestoeducation.Thispaperexplainsthe

conceptandmethodsofPISAdigitallearningskillsassessment,includinggoalconstructs,studentmodels,

assessmentunits,evidencerules,scorereporting,etc.Toenableeducatorstounderstandhowstudentsthink

andregulatetheirlearning,theOECDhasdevelopedthePlatformforInnovativeLearningAssessments

(PILA)forformativeassessment.TheformativetoolsthatarebeingdevelopedinthePILAprojectwillsupport

jurisdictionsandindividualschoolsinfosteringtheseautonomouslearningskills.

Keywords:digitalizationofexaminations;PISA;digitallearningskills;innovativeassessment;autonomous

learningassessment(责任编辑:张丽)

·24·

席小明,女,香港考试及评核局考试、评核及研究部总监。

(香港考试及评核局,香港999077)

以学习者为中心的

自适应学习系统的设计与评估

摘要:个性化、定制化、自适应已经成为教育领域的流行语。为适应不同学习者的特点、优化

学习者体验,应研发跨学科领域的个性化自适应学习系统,并开展全方面评估。基于此,讨论自适

应学习系统涉及的专业领域和各项评估,分析设计评估时需要考虑的重要因素,并提出评估自适

应学习系统功效的框架,包括用户属性界定、用户属性评估、内容代表性、用户交互设计、用户交互

效果等。应用本框架能够高效而准确地评估,并提供可行有效的反馈信息,以保障学习者最优的

学习体验。

关键词:自适应学习;个性化学习;评估科学;自适应系统评估;人工智能技术

DOI:10.19360/j.cnki.11-3303/g4.2024.02.004

论及教育领域过去10年最重要的技术创新,

自适应学习技术可能会位居榜首。技术的最大

优势之一是使创新规模化,以惠及众多的用户,

自适应学习技术就是一种让创新的学习方式规

模化的技术。在高质量的一对一教学中,教师根

据学习者水平、需求和偏好提供个性化教学;自

适应学习系统则通过使用人工智能技术使个性

化学习规模化。

自适应学习系统的架构非常复杂[1-3]

,但可以

通过思考自适应学习系统涉及的三个关键问题

来进行简化。首先是学习者已经掌握的知识或

能力,这是自适应学习系统得以运作的基础。其

次是学习者整个自适应学习应该是什么样,这一

点在自适应学习系统的设计中往往没有得到重

视,大多数情况下直接由内容开发人员编写学习

内容。高质量自适应学习系统的研发需要有经

验的学习设计者系统地规划学习目标,并将其分

解成小的知识和技能点,设计整体学习体验,从

而指导大规模的内容开发。第三是学习者进一

步的学习内容,这是自适应学习系统开发者在设

计过程中需要不断回答的问题。基于这三个关

键问题,自适应学习系统架构主要包括三个后端

引擎:用户模型(usermodel),内容设计和标注模

型(contentdesignandtaggingmodel),推荐引擎

(recommendingengine)[4]

用户模型包括关于学习者的知识、技能和能

力的学生模型,关于学习者的需求、偏好、经验和

背景的个人背景模型,以及关于学习者的学习和

认知方式、情感信息的心理模型[5]

,主要对应前述

第一个问题。内容设计和标注模型存储所有的

学习内容和技能、水平、话题等的标注,并使标注

的内容能够按规则推送给个人,主要对应前述第

二个问题。推荐引擎设定针对个人的学习路径、

内容和用户交互方式,使个性化学习成为可能,

对应前述第三个问题。

一、设计自适应学习系统需要的专业领域

开发一个自适应学习系统涉及多个重要的

专业领域,而组建一个拥有这些专业人才的团队

难度非常大。为设计出先进的自适应学习系统,

开发团队至少应该囊括学习科学、认知和非认知

科学、评估科学、人工智能技术四个领域的人才。

(一)学习科学

开发自适应学习系统需要的第一个专业领

域是学习科学。学习科学研究个人如何获得或

增强特定的知识和技能,主要解决以下问题:学

习者一般或在某个特定的领域如何获取和提高

知识技能?知识技能图谱应该包括哪些知识和

技能点?这些知识或技能点之间的关系如何?

一个自适应学习系统的基石是知识技能图

谱。该图谱应具有两个特点:一个是知识技能的

颗粒度非常细,这样才能为学习提供指南针;另

一个是图谱应该是动态的,而不是静止的,因为

在学习的过程中学习者的知识和技能会发生改

变,图谱也应该相应地对学习者的知识和技能提

高的路径提出假设。

目前,在知识技能发展顺序比较清晰的数

学和科学等领域,已经开发出相对成熟的知识技

能图谱。而某些领域,如语言沟通能力及艺术能

力等,其发展路径取决于学习环境、课程重点、

学习者的背景特征和诸多其他因素,因此很难制

定出适合所有学习者的技能发展顺序。对于这

些领域,最好能够为特定人群开发更具针对性的

图谱。

在开发自适应学习系统时,首先需要将学习

目标分解为非常细化的知识和技能点,这是一项

烦琐但关键的基础性工作。最初的知识技能图

谱一般由领域专家完成,然后需要借助大数据进

行验证和完善。

(二)认知和非认知科学

认知和非认知科学是开发自适应学习系统

需要的第二个专业领域,对于自适应学习系统的

开发至关重要,但大多数系统的开发往往忽略认

知和非认知因素。领域内对认知和学习方式的

研究不足,学习者参与度和学习动机等非认知因

并能够准确识别认知和学习方式的工具。

(三)评估科学

开发自适应学习系统需要的第三个专业领

域是评估科学。一个全面的自适应学习系统可

以通过改变学习材料的级别、顺序、内容或学习

者与系统交互的模式来提供个性化解决方案,而

个性化解决方案则是基于学习者的能力水平、认

知和学习方式、需求和偏好以及情感反应设计。

这些学习者的信息需要通过不同类型的评估来

得到,包括入门评估、诊断评估、动态评估、学情

进度评估、自我评估和同伴评估、隐形评估、多媒

态评估等。评估的主要目的是更新用户模型,以

支持自适应学习,本文重点介绍动态评估和隐性

评估。

1.动态评估

动态评估的典型设置是先进行无辅助测评,

再提供辅助,然后再次进行无辅助测评[6]

。根据

学习者表现提供多级辅助,以了解学习者在各级

辅助下测评任务的完成度;然后立即或隔一段时

间给出同样的任务,在不提供辅助的条件下观察

学习者的完成度。确定不同学习者完成复杂任

务所需的支持类型后,可以针对性地提供学习内

容,帮助其巩固辅助中涉及的技能。传统的评估

只能衡量学习者已经掌握的内容;而动态评估则

·26·

可以了解学习者在辅助之下能完成什么,注重评

估学习者正在发展的技能,帮助设计合适的学习

针对客观题的动态评估可以根据学生错答

情况提供不同层级的答题辅助,如标出含有正确

以及提供正确答案的详尽解释。这一类动态评

估相对而言设计较为容易,而针对主观题的动态

评估设计则需要依托人工智能技术,借助自动评

分和反馈提供恰当的针对个人的辅助。例如,针

对口语的动态评估需要人机交互系统技术才能

实现。在针对小学生的口语动态评估中,学生可

先就某一话题与机器对话,机器每问一句话,便

呈现两张图片供学生选择并作答。如此,既能给

予学生一定的选择权,又适当地限制了对话发展

的方向。机器根据学生的作答情况,提供关键词

或整个示范句作为提示,最后学生在没有提示的

情况下再一次与机器对话。动态评估虽有诸多

优势,可以评估学习者的潜在能力,但在测评中

使用并不普遍。

2.隐形评估

Shute追溯了隐形评估的演变[7]

。隐形评估

紧密嵌入数字学习并作为学习体验的一部分,学

习者并没有意识到他们在完成评估。隐形评估

的主要目标是提供沉浸式的学习体验,通常用于

游戏化的学习产品中,学习者的体验不会被单独

的评估打断。

在一个成熟的自适应学习系统中,学习和评

估是相辅相成、无缝融合的,系统不提供正式的

评估,学习者也不会意识到学习和评估活动之间

有任何明确的划分。系统通过大数据分析检测

学习者的背景特点,以及学习者与系统中各种标

记内容的交互方式,并尝试将同样的方式推荐给

具有相似背景的其他学习者。在自适应学习环

境中,能力模型应重新构建为细粒度的知识能力

图谱,其中包括知识和能力节点,以及它们之间

如何相互关联。通过分析学习者的输出或者学

习过程,知识能力图谱中的知识和技能可以评估

为有/无,或是差/一般/好/非常好。这些评估构成

证据模型的一部分,然后借助贝叶斯或IRT等测

量方法不断更新学习者对目标知识能力图谱的

掌握水平。

3.其他几类评估

大多数自适应学习系统提供分级学习内容,

使用分级评估预测每个学习者起始的水平。分

级评估最重要的目的是借助高效的评估题型和

心理测量模型,快速精准地测出学习者的水平。

分级评估应该使用难度跨度大、区分度高的题

目,或是使用自适应测量模型。学业阶段性评估

旨在衡量学习者在学习过程中的进步,设计该类

评估应当选取涵盖课程核心技能的代表性试题。

学业阶段性评估不必使用高区分度的题目,大多

数学生评估表现良好也是很常见的。诊断性评

估提供针对一般技能的诊断,需要使用细粒度的

子技能能力模型,提供关于学习者强项和弱项的

有意义、信度高和操作性强的反馈信息。自我评

估和同伴评估旨在提高学习者的自我效能并促

进自适应学习中的协作学习,这些评估应该设计

得简单并易于使用。多模态评估不同于传统的

评估,可以收集有关学习者的面部表情、肢体语

言和声音信息,推断他们的情绪和参与程度,进

而帮助调整学习内容和交互模式。

(四)人工智能技术

开发自适应学习系统需要的第四个专业领

域是人工智能技术,主要包括四类技术,如图1所

示。第一类是自动评分及反馈技术,对学习者的

输出进行评估和反馈;第二类技术用于分析学习

者的学习过程,如眼动追踪技术、答题过程中键

等[8-9]

;第三类技术可用来分析学习者的行为,如

席小明:以学习者为中心的自适应学习系统的设计与评估·27·

面部表情及语音语调等;第四类技术可以用来支

持互动性的学习任务,如用人机对话交互技术支

持学习者和机器的对话[10]

目前人工智能技术的应用主要集中在语言

处理领域,如作文及口语评分和反馈系统,这些

系统仍存在诸多局限。在数学和科学等领域,尚

缺乏评判开放式问题的成熟的评分引擎;分析学

习过程的人工智能技术应用则更少,支持交互式

任务的人工智能技术仍处于发展初期。

二、自适应学习系统功效的评估方法

自适应学习系统功效的评估,主要采用整体

评估方法和分功能评估方法[5]

。前者侧重于根据

系统整体性能和表现或用户意见来评估系统的

表现[11]

。后者则通过分解自适应学习系统,分析

设计系统每个部分涉及的关键决策,并研究这些

决策对整个系统表现的影响[5,12]

。据此,在分析整

个系统的表现时,可以找出具体的设计问题,如

用户模型的评估存在问题或自适应规则设计不

合理,导致学习内容的设计存在瑕疵。

如图2所示,本文提出的评估系统功效的方

法围绕自适应学习系统的三个后端引擎,即用户

模型、内容设计和标注模型、推荐引擎[4]

。该自适

应学习分层评估方法在概念上类似于基于论证

的测评效度验证方法。在这种验证框架下,要分

析测评的效度首先要构建出支持效度所需的一

系列假设成立的论点,然后收集证据以支持最重

要的假设成立[13]

。以实证方法收集到的证据或是

引用理论框架提供的证据可以支持不同的论点,

为基于分数的解释和使用提供支持。为调查自

适应学习解决方案的功效,需收集证据回答以下

五个核心问题。

(一)用户属性界定问题

用户属性界定问题需要回答学习者属性和

面部表情语气的

多模态分析等

AI自适应算法

用户模型

·自动评分

·自动反馈

·眼动追踪

·按键记录

·聊天对话框

·口语对话系统

学习者行为学习者输出

学习者与人工

智能任务的

互动

学习者

答题过程

图1人工智能技术在自适应学习系统中的应用

用户模型内容设计和标注模型

知识能力图谱

学习者风格、需求和

情绪状态

推荐引擎

系统性能和

用户反应

用户属性估计内容代表性

用户属性界定

用户交互设计

用户交互

效果

图2自适应学习系统的功效论证

·28·

行为的界定是否颗粒度足够细,能否支持所设计

的学习内容和自适应学习规则。知识能力图谱

界定细化的知识点和技能以及它们之间的关联,

为自适应学习系统奠定理论基础。与支持考试

设计的知识能力典型构念相比,在评估知识图谱

时需要结合前述两个特点考虑以下一些问题:

1)创建知识图谱依据的能力模型是什么,它是否

与当前的知识能力框架契合;2)知识能力图谱是

否足够细化以支持内容开发及标注;3)知识能力

图谱是否由足够资历的专家创建,开发流程是否

严谨,图谱是否已根据学习者的数据进行了验证

和修改。

除知识技能之外,学习者的风格和需求也是

用户模型的一部分,学习者的情绪状态则可以从

前述多模态评估收集的信息中推断出来。例如,

可以通过对学习者面部表情和声音的分析来了

解其情绪状态,以推断学习者是否感到无聊、沮

丧或是困惑,并引入相应的干预措施。

(二)用户属性估计问题

用户属性估计问题需要回答用户模型能否

提供有意义、准确和操作性强的信息,以作为设

计自适应学习的基础。为了持续更新自适应学

习系统的用户模型,系统需要不断分析评估学习

者的输出、答题过程和情绪反应。评估用户模型

题过程和输出所做的知识技能评估是否有效;

2)从各个自适应学习练习中汇总的证据是否能

够支持对学习者知识技能的准确评估;3)诊断学

习者的认知和学习风格工具的准确性如何;4)多

模态分析模型是否能准确地分析学习者的情绪

状态。

(三)内容代表性问题

内容代表性问题需要回答学习内容是否经

过精心设计和适当标记,以支持自适应学习系统

的设计。自适应学习系统必须依赖于精心设计

的学习内容才能成功,而自适应学习系统的质量

取决于内容的设计和标注。内容设计和标注方

式的评估涉及三方面问题:1)内容设计是否与当

前的学习理论和实践契合;2)内容设计是否与知

识能力图谱及用户模型中的其他元素契合;3)人

工或人工智能对内容的标记是否准确。

无论学习系统是静态的还是自适应的,其内

容都必须符合高质量设计的标准。学习内容还

应根据知识能力图谱和学生模型中的其他元素

进行调整,如认知风格、需求、偏好和情绪状态评

估结果等。内容的标记可以由学科专家完成,或

是借助人工智能技术;无论采取何种方式,内容

标记的准确性都是评估学习设计和标记模型的

关键指标。

(四)用户交互设计问题

用户交互设计问题需要回答推荐引擎能否

在学习层级、顺序、内容和交互方式上提供适当

的自适应学习方案。如图2所示,推荐引擎由用

户模型、内容设计和标注模型共同支持,它获取

状态的信息,并按照定义的规则和路径提取标注

内容推送给各个学习者。

以下三个问题可以帮助评估自适应学习水

平、路径和内容的设计:1)自适应学习级别的设

计是否合理。所有自适应学习系统都尝试为学

习者提供适合其水平的学习内容,在学习者感觉

有所挑战的同时又不至于感到挫败,以此提供最

佳的学习体验。这要求提供水平分级的评估高

效且准确,能够给学习者快速匹配最适合的内

容。设计是否合理可以通过分析学习者在指定

级别练习中的表现、对水平匹配度的看法以及情

感反应来进行判断。2)自适应路径的设计是否

合理。如前所述,大多数自适应语言学习系统仅

针对个人定制学习内容,对于同一级别的所有学

习者来说,学习顺序或多或少保持相同;然而,在

席小明:以学习者为中心的自适应学习系统的设计与评估·29·

某些情况下,针对不同学习者类型调整学习顺序

可能更有利于学习。自适应路径可以由专家界

定,或通过对学习者数据的分析来确定,也可以

结合两种方式。为评估推荐学习顺序的有效性,

可以通过实验研究比较对照组与实验组的学习

效果,以评估推荐路径的效果。3)自适应内容的

问题包括:系统能否对非开放题和开放题都提供

反馈,对开放题反馈的准确性如何;系统对非开

放题的反馈包括哪些类型,如对或错、解题原理、

提示、与正常群体的表现比较等,反馈是否合适;

系统对开放题能提供什么类型的反馈,如使用的

否能估计不同子技能的水平并指出错误或缺陷;

推荐的自适应学习内容是针对特定的练习还是

代表更广泛的知识和技能,如果是后者,系统如

何评估学习者对更广泛的知识和技能的总体掌

握水平;系统是否根据学习者的认知和学习方式

调整学习内容和形式,如何调整,调整方式是否

合理;系统能否检测学习者的情绪反应并适当调

整学习内容、形式和节奏。

(五)用户交互效果问题

用户交互效果问题需要回答自适应学习系

统在系统功效和用户意见方面是否比其他的学

习设计方案更高效、更有效果。不能想当然地认

为自适应学习系统一定有效,贴上“适应性”或

“个性化”的标签并不会让自适应学习系统比精

心设计的静态学习工具更加高效。对用户模型

中学习者属性和行为评估的准确性以及推荐引

擎的有效性可以为系统的整体功效提供一定的

支持,但是从系统性能和用户感知的角度来看,

需要强有力的证据来证明自适应学习系统比传

统的系统更加优越。在评估系统整体功效时,可

以考虑以下一些问题:1)学习者是否对适应性学

习系统作出了正向反馈,从而在一定程度上提升

学习的积极性和效果;2)如果教师使用自适应学

习系统提供的信息来指导教学,那么教师对该系

统是否作出正向反馈,能否准确地解释教师仪表

盘中提供的信息并使用这些信息对学生进行更

具针对性的教学指导;3)自适应学习系统是否比

其他学习设计更有效、更高效。

上述自适应学习系统的评估框架包括了效

度验证所需要评估的一系列方面,据此就可以找

到证据链中的薄弱环节并予以加强,以提高整个

系统的功效。总而言之,一个强大的、完全自适

应的学习系统需满足以下五个条件:1)由专家基

准/课程保持一致,并根据数据进行调整;2)精心

设计学习内容并进行合适的标注,以匹配学习者

的知识技能、学习和认知风格以及情绪状态;

3)由专家设计,并用大数据验证及改进的自适应

学习路径;4)为学习者提供准确、有意义且可操

作的反馈信息,以便学习者及其教师更有针对性

地学习和教学;5)与其他学习工具相比,更有效

率,效果更佳。

虽然自适应学习系统设计的核心要点是提

供个性化的学习级别、路径、内容和交互方式,但

并不是所有的系统表现都能符合预期。以学习

者为先的自适应学习系统始终会将学习者的需

求放在首位,以学习者为中心的评估需要简短而

准确,用最高效的方式以最低的测量误差提供对

学习者知识技能的评估。以学习者为中心的评

估还需要给学习者提供操作性强的反馈信息,而

不仅仅是分数。如果自适应学习体验以学习者

为先,那么它需要适应学习者的需求、水平、个人

背景、认知和学习风格,并可以根据学习者的情

绪状态调整学习内容和呈现方式。总而言之,学

·30·

学习路径和内容。

如果一个系统可以达到以上所有要求,那么

才能称之为学习者至上的系统,但现实情况中许

多系统都达不到这种预期。要开发出学习者至

上的系统,真正赋能学生和教师,必须从自适应

学习系统的核心,即基于学习和评估理论的知识

技能图谱开始,学习内容的设计必须基于知识能

力图谱;否则,如果学习内容的设计基础很糟糕,

无论提供多么个性化的学习内容,都不会促进学

习,反而是在浪费本可以用于更有意义学习的时

间。评估在自适应学习系统中发挥着重要的作

用,每一种评估都有各自的潜在用途和设计特

点;但实际上,现有的自适应学习解决方案中各

种评估的使用还没有系统化。有必要在自适应

学习系统的开发团队中加入评估专家,如不能准

确高效地测量学生的水平和需要提高的技能,就

无法有的放矢地帮助学生提高。

另一个限制高级自适应学习系统(尤其是针

对复杂的技能的学习系统)开发的因素是缺乏成

熟的人工智能评分和反馈技术。虽然领域内已

经进行了一些研究尝试,如开放性数学题目和写

作的机器评分,但效果仍未达到预期,不能给学

习者提供良好的用户体验。大多数自适应学习

系统专注于针对学生的知识和认知能力提供自

适应学习解决方案,但对学习者的动机、情绪状

在设计自适应学习系统时,需要考虑如何激励学

习者动机,吸引其注意力,以帮助他们取得最大

的学习成果。

自适应学习技术是教育科技领域的一项重

要创新,但从自适应学习系统的现状来看,这项

技术远非解决学习问题的灵丹妙药。大多数自

适应学习系统仅针对客观题题库使用简单的自

适应算法,系统提供商并没有深入研究如何开发

出针对复杂技能的自适应学习解决方案。如果

自适应学习内容的设计和实施不当,自适应学习

系统只会阻碍而非促进学习。

[1]BENYOND,MURRAYD.Developingadaptivesystems

tofitindividualaptitudes[C/OL]//Proceedingsofthe1st

InternationalConferenceonIntelligentUserInterfaces,

pdf/10.1145/169891.169925.

[2]JAMESONA.Systemsthatadapttotheirusers:aninte‐

grativeperspective[M].Saarbrücken:SaarlandUniver‐

sity,2001.

[3]DURLACHPJ,LESGOLDAM.Adaptivetechnologies

fortrainingandeducation[M].Cambridge:Cambridge

UniversityPress,2012.

[4]XIX.Designingandevaluatingassessmentandlearning

inadaptivelearningsystems[J].LanguageTestingand

Assessment,2022(1):94-120.

[5]BRUSILOVSKYP,KARAGIANNIDISC,SAMPSOND.

Layeredevaluationofadaptivelearningsystems[J].Inter‐

nationalJournalofContinuingEngineeringEducation

andLifelongLearning,2004,14(4/5):402-421.

[6]POEHNERME.Dynamicassessment:aVygotskianap‐

proachtounderstandingandpromotingsecondlanguage

development[M].Berlin:SpringerPublishing,2008.

[7]SHUTEV,LUX,RAHIMIS.Stealthassessment[M].

NewYork:Routledge,2022.

[8]CONKLINK,PELLICER‐SáNCHEZA.Usingeyetrackinginappliedlinguisticsandsecondlanguagere‐

search[J].SecondLanguageResearch,2016,32(3):

453-467.

[9]DEANEP,ZHANGM.Exploringthefeasibilityofusing

writingprocessfeaturestoassesstextproductionskills

[R].ETSResearchReportNo.RR-15-26.Princeton,

NJ:EducationalTestingService,2015.

[10]SUENDERMANN-OEFTD,RAMANARAYANANV,

ZHOUY,etal.Amultimodaldialogsystemforlan‐

guageassessment:currentstateandfuturedirections

[R].ETSResearchReportSeries,2017.

[11]CHIND.Empiricalevaluationofusermodelsanduseradaptedsystems[J].UserModellingandUserAdapted

席小明:以学习者为中心的自适应学习系统的设计与评估·31·

Interaction,2001,11(1/2):181-194.

[12]WEIBELZAHLS.Evaluationofadaptivesystems[M].

Fribourg:UniversityofEducationFreiburg,2002.

[13]KANEMT.Validation[M]//BRENNANRB.Educa‐

tionalMeasurement.4thed.Westport:Praeger,2006:

17-64.

DesigningandEvaluatingALearner-FirstAdaptiveLearningSystem

XIXiaoming

(HongKongExaminationsandAssessmentAuthority,HongKong999077,China)

Abstract:Individualization,customizationandadaptivityhavebecomethecatchwordsineducation.

ofthewaywhenhe/sheinteractswiththeassessmentsandlearningcontent,arerare.Thisisbecause

developingsuchsolutionsrequiresinterdisciplinarytalentsinassessment,learning,cognitiveandnoncognitivescience,AI,andmanymore,which,inreality,isaluxuryformostdevelopmentteams.

Howdoweensurealearner-firstassessmentandlearningexperienceIndesigningvarioustypesof

assessmentsinadaptivelearning,wewanttheassessmentstobeefficientyetprecise,provideactionable

information,andsupportapositiveassessmenttakingexperience.Alearningexperienceoptimizedforan

individuallearnermustmeethis/heruniquelearningneeds,andbetailoredtohis/herlevel,dynamic

knowledgeandskillprofiles,cognitiveandlearningstyles,andconstantlychangingaffectivestatestofacilitate

themostspeedyandeffectivelearning.

Thisarticlediscussesthefourareasofsciencebehindanadaptivelearningsystemandsomeofthe

challengeswearefacingindevelopingthescience.Itprovidesanoverviewofdifferenttypesofassessment

usedinadaptivelearningandananalysisoftheassessmentapproach,priorities,anddesignconsiderationsof

eachtooptimizeitsuseinadaptivelearning.Itthenproposesaframeworkforevaluatingtheefficacyofan

adaptivelearningsystem.Throughdecomposingthearchitectureofanadaptivelearningsystem,itanalyzesthe

chainofinferencesandkeyquestionstoanswertosupportitsoverallefficacy,includinguserproperty

representation,userpropertyestimation,contentrepresentation,userinteractionrepresentation,anduser

interactionimpact.Itconcludeswiththoughtsonhigh-priorityresearchanddevelopmenttoprovidelearnerfirstsystemstofullyempowerourlearners.

Keywords:adaptivelearning;personalizedlearning;assessmentscience;evaluationofadaptivelearning

system;AItechnology

(实习编辑:刘昊林)

·32·

许嘉凌,女,香港考试及评核局评核科技及研究部经理;

萧伟乐,男,香港考试及评核局评核科技及研究部主管;

摘要:为研究香港中学文凭考试(简称文凭试)等级预测结果,以过往文凭试结果作为依据,

通过标准化程序,对2020—2023年共计146180名考生根据其校内评核成绩进行文凭试等级预

测;并采用问卷调查法,基于各参与学校组织架构、教师的工作经验、公开考试阅卷经验及专业发

展活动等,运用多层线性模型探讨学校属性与校内评核的关系。结果显示:中文、英文、数学、通识

教育4门核心科目等级预测结果具有较高的准确度,其中英文预测结果最佳,其余3科预测结果类

似;选修科目则因每年选考人数少导致文凭试成绩变化大,进而影响预测结果;多层线性模型分析

显示,不同学校属性对于不同科目的校内评核具有不同的预测效果。

关键词:香港中学文凭考试;等级预测;校内评核;标准参照测验

DOI:10.19360/j.cnki.11-3303/g4.2024.02.005

现行香港中学文凭考试(HongKongDiploma

ofSecondaryEducationExamination,HKDSE,以下

简称文凭试)为新学制下,学生在完成六年中学

课程后所参加的大学入学考试。首届文凭试于

2012年举行,香港考试及评核局(HongKongExami‐

nationsandAuthority,以下简称考评局)自2013年

起开始对文凭试进行预测研究。该研究旨在通

过校内评核分数预测广大考生文凭试成绩等级,

协助教师了解学生未来公开考试的可能表现,从

而因材施教,并优化校内评核的设计。2013—

2019年,该预测研究仅限于文凭试核心科目,包

括中文、英文、数学、通识教育4门。为更全面地

研究学生在校表现与文凭试考试结果的关系,自

2020年起,考评局将此预测研究延伸至24门甲

类科目,包括4门核心科目及20门选修科目。

一、文凭试科目概况

中国香港于2009年9月起推行新学制,包括

三年高中及四年大学课程的教育改革。文凭试

因应这一改革,于2012年开始实施,为六年制中

学的毕业考试,以取代旧学制的香港中学会考

(HongKongCertificateofEducationExamination)

及香港高级程度会考(HongKongAdvancedLevel

Examination),由考评局组织实施公开考试。除

此之外,文凭试也是广为国际认可的大学入学资

质证明。

文凭试科目分为甲类、乙类、丙类三类。甲

类科目为24门高中科目,包含4门核心科目(中

文、英文、数学、通识教育)及20门选修科目(中国

文学、英语文学、中国历史、经济、伦理与宗教、地

理、历史、旅游与款待、生物、化学、物理、科学、企

业、会计与财务概论、设计与应用科技、健康管理

与社会关怀、资讯及通讯科技、科技与生活、音

乐、视觉艺术及体育)。所有甲类科目的评核由

考评局负责,依据同一套共通能力等级描述(gen‐

eraldescriptors),为各科制定等级描述(levelde‐

scriptors),将考生表现以5个等级(1~5级)报告于

文凭试成绩证书。文凭试各科等级描述及考生

表现的范例,可参阅考评局网站的“香港中学文

凭考试评级程序与水平参照成绩汇报”[1]

。其中,

在最高等级考生中,成绩最优异的可获评为5**

级,成绩次佳的可获评为5*

级,表现低于第一级

的“不予评级”,其结果不会报告于文凭试成绩证

书。乙类科目为应用学习类科目(appliedlearn‐

责,考生评核成绩须由考评局审定后汇报于文凭

试证书。丙类科目包含法语、德语、印地语、日

语、西班牙语、乌尔都语6门,采用剑桥大学国际

考评部(CambridgeAssessmentInternationalEdu‐

cation)的高级补充程度试卷(AdvancedSubsid‐

iaryLevel),阅卷及成绩评级同由剑桥大学国际

考评部处理。

文凭试24门甲类科目的最终成绩为文凭试

考试分数与校本评核(school-basedassessment,

SBA)的合成,且每一年度各科在此两部分的组合

比例有所不同。文凭试最终成绩汇报采用标准

参照(standards-referenced)方式,经由专家小组

评级会议、考评局内部会议及公开考试委员会会

议等程序确定最终评核结果。针对4门核心科

目,考评局采用一套结合专家判断和统计分析的

方法,设定各科每个等级的临界分数(cutscore),

并据此给予每名考生在4门核心科目的等级;选

修科目部分则采用“组别能力指数”(groupability

index)作为评级的参考。

二、等级预测研究

在每一学年文凭试预测研究中,考评局根据

学校所提交应届考生的校内24科目评估分数,参

考学校过去的文凭试成绩预测,各学校考生在此

24科目的文凭试等级。采用R-4.2.3软件进行预

测分析。

(一)研究样本

本研究样本来自2020年377所学校

36913名考生、2021年375所学校34743名考

生、2022年417所学校38127名考生、2023年

319所学校36397名考生的校内评核资料。为

有效区分学生表现,学校提交的评核分数介于

0.0~100.0,校内评核主要采用中学六年级模拟考

试数据。

(二)研究方法

预测研究的方法涵盖标准化处理(standard‐

ization)、分数预测(markprediction)、等级预测

(levelprediction)三个步骤。以2020年为例,对

每一步骤进行说明。

1.标准化处理

首先,将各学校所提交的评核分数(school

mark)标准化,转换至以文凭试为基准量尺的标

准化分数,步骤如下:

第一步,将2012—2019年所有学生的文凭试

分数转换至以0.0~100.0分为量尺的文凭试量尺

分数(scaledscore),作为文凭试量尺基准。

第二步,计算2012—2019年各年文凭试量尺

分数的平均分数及标准偏差。

第三步,计算2012—2019年总的文凭试量尺

第四步,将上述步骤代入公式(1),计算

2012—2019年各年文凭试量尺分数的标准化分

数(standardizedscore)。

·34·

其中,M8-year及SD8-year分别表示8年总的文凭试量

尺分数的平均分数及标准偏差,M1-yearl及SD1-year分

别表示各年度文凭试量尺分数的平均分数及标

准偏差。

第五步,计算各校2020年所提交评核分数的

平均分数和标准偏差,以及8年总的文凭试标准

化分数的平均分数和标准偏差。

2.分数预测

将上述第五步所计算出的各校文凭试量尺

分数的统计指标,代入公式(2),基于各校2020年

所提交的校内评核分数预测每一位考生的文凭

试分数(proxymark)。

其中,M8-year-school及SD8-year-school分别表示各校在8年

总的文凭试量尺分数的平均分数及标准偏差,

M1-year-school及SD1-year-school分别表示2020年度各校所

提交评核分数的平均分数及标准偏差。由于文

凭试最终成绩由文凭试考试分数与校本评核依

据不同加权比重合成,各科最终的预测分数由公

式(2)的预测文凭试分数按权重加上2020年校本

评核分数。例如,中文科文凭试分数占比为

76%,校本评核分数占比为24%;而数学科则不参

考校本评核分数,最终成绩即为文凭试分数。受

2023年的文凭试,不但校本评核科目有所减少,

比重也有所降低。例如,中文科2021—2023年文

凭试分数占比提升至90%,校本评核分数降低至

10%。2020—2023年各科目文凭试和校本评核

分数权重参见考评局官方网站www.hkeaa.edu.

hk。开展2021年、2022年、2023年研究时,8年文

凭试量尺分数对应增加为9年(2012—2020年)、

10年(2012—2021年)及11年(2012—2022年)。

3.等级预测

将2012—2019年文凭试各等级百分比分别

加权后,再以各等级加权后平均值作为2020年预

测的等级临界分数线。依据此预测等级临界分

数线,计算每一位考生文凭试预测分数相对应的

预测等级(predictedlevel)。

(三)评估指标

本研究预测准确度的评估指标为各考生的

预测等级与其文凭试实际等级之间的差距。

(四)研究结果

表1呈现2020—2023年文凭试核心科目预

测等级结果。可以看到,四年中4门核心科目预

测结果比较一致,其中,英文科的预测结果为最

佳,每一年都有约70%考生预测等级与其文凭试

实际等级相同,并且约99%的考生预测等级与其

文凭试实际等级差距在一个等级范围之内。中

文、数学及通识教育则每一年都有超过50%考生

的预测等级与文凭试实际等级相同,有超过93%

的考生预测等级与其文凭试实际等级差距在一

个等级范围之内。在选修科目预测结果上,每年

约有31%至65%的考生预测等级与其文凭试实

际等级相同,超过75%考生预测结果与其文凭试

等级相差在一个等级以内。由于部分选修科目

的考生数量较少,过去的考生表现也比较波动,

预测的准确性受到一定影响。比较特别的是视

觉艺术科,它的校本评核成绩占总分50%之多,

需要预测的考试分数只占总分的50%,结果预测

等级与文凭试实际等级相同的百分比在60%以

上,比其他选修科高。总体来说,有校本评核成

绩的科目,预测的准确性一般较高。

SD1-year-school

schoolmark-M1-year-school

×SD8-year-school

M8-year-schoolproxymark=+

(2)

M8-year

SD1-year

scaledscore-M1-year

×SD8-year

standardizedscore=

(1)

+

许嘉凌等:香港中学文凭考试等级预测研究·35·

三、多层线性模型分析

针对2023年参与文凭试预测研究的学校进

行问卷调查,包括教师工作经验、参与公开考试

阅卷经验、参加教师职业培训活动、采用文凭试

等级描述设计校内评核及向学生提供反馈、预估

学生文凭试成绩的经验,题目包括“过去5年,负

责本学科的老师曾参与过多少次公开考试评卷

工作”“过去5年,本学科的老师有没有为学生预

估过DSE成绩”等。本研究使用的数据具有层

级性,学生属于个体层级(层1),学校属于组织层

级(层2),构成一个二层级模型。采用R-4.2.3软

件的lme4软件进行二层级线性回归模型分析。

样本来自2023年319所参加文凭试预测研

究的215所学校教师问卷资料及18632名考生文

凭试预测资料。

为有效估计多层线性模型分析的高层级(学

校层级)效果,纳入分析的科目需要满足以下标

科目

中文

英文

数学

通识教育

微积分与统计*

代数与微积分

组合科学-化学*

组合科学-物理*

组合科学-生物*

组合科学*

综合科学*

资讯及通讯科技

视觉艺术

中国文学*

英语文学*

健康管理与社会关怀*

设计与应用科技*

食品科学与科技*

服装、成衣与纺织*

会计

商业管理

中国历史

经济

伦理与宗教*

地理

历史

旅游与款待

音乐*

体育*

预测等级与文凭试实际等级相同的

百分比/%

2020年

56.2

70.6

54.3

53.9

35.1

48.1

41.4

47.3

51.9

49.2

52.5

63.5

39.4

47.8

48.9

64.5

50.7

58.3

49.3

48.8

41.8

44.8

47.2

40.3

42.5

43.6

47.6

2021年

50.8

71.0

58.4

53.8

34.3

40.1

44.1

41.5

45.7

37.3

49.1

63.6

37.5

45.9

49.7

50.5

45.8

53.3

51.3

43.8

45.6

43.3

41.3

44.3

36.5

51.0

2022年

50.0

70.2

33.0

39.3

48.0

38.0

50.2

38.2

45.5

62.3

36.9

44.2

47.9

43.1

38.5

49.4

41.6

46.6

42.4

2023年

51.5

70.8

49.9

31.7

39.8

51.4

48.7

50.6

23.5

62.7

35.0

34.6

48.5

54.6

56.3

21.4

42.0

48.6

43.2

42.7

45.4

35.4

51.2

预测等级与文凭试实际等级差距在一个等级

范围之内的百分比/%

96.2

99.2

95.7

96.0

75.3

81.0

92.4

88.2

93.0

93.4

87.3

95.0

97.7

88.5

90.9

94.1

97.2

95.8

83.3

92.3

93.9

87.7

90.2

91.0

86.9

89.8

82.0

91.3

93.5

97.3

95.4

80.8

89.9

79.3

86.0

91.4

88.0

83.2

91.8

92.0

87.8

87.4

95.1

94.3

89.2

93.2

90.4

88.8

87.1

83.5

95.6

93.6

99.0

96.6

79.1

85.9

80.6

86.7

92.2

97.4

83.7

86.1

92.8

92.6

91.2

90.7

88.6

94.2

99.1

78.1

86.2

94.4

94.5

76.5

97.5

81.5

92.7

78.6

93.7

89.6

93.3

90.6

89.7

81.3

92.9

注:*

为考生人数较少的科目。

表12020—2023年各科目考生分数预测结果

·36·

必须超过50所[2]

,据此筛选出中文、英文、数学、通

识教育、中国历史、经济、地理、历史、生物、化学、

物理、会计与财务概论、资讯及通讯科技、视觉艺

术14个科目。此14个科目皆采用相同的10个预

测变量(表2)进行11组二层级模型,因变量为学

生文凭试的预测分数(如等级预测研究中的步骤

二)与真实分数的差异。

11组二层级模型的层1皆如公式(3),层2则

依序加入表2所列自变量。

Yij=β0j+eij(3)

其中,模型1为零模型(nullmodel),公式(4)是层

2模型中不设自变量的模型。模型2~11则为层

2依序加入表2自变量。例如:模型2是代入公式

(5),在层2加入“学校位置”为自变量;模型11则

是代入公式(6),层2加入“学校位置、学校类型、

男/女/男女校、样本数、数据百分比、工作经验、公

开考试阅卷经验、专业发展活动、等级描述经验、

预估文凭试经验”为自变量。

β0j=γ00+u0j(4)

β0j=γ00+γ1X1+u0j(5)

β0j=γ00+γ1X1+γ2X2+γ3X3+γ4X4+γ5X5+

γ6X6+γ7X7+γ8X8+γ9X9+γ10X10+u0j(6)

其中,对于层1模型,Yij表示第j个学校第i个学生

因变量的观察值(学生文凭试的预测分数与真实

分数的差异),β0j表示第j个学校对校内评核回归

直线的截距,eij表示第j个学校第i个学生的测量

误差。对于层2模型,γ00,γ(jj=1,2,…,10)分别

表示截距β0j对于学校变量X(jj=1,2,…,10,如

学校位置、学校类型)的回归直线的截距和斜率,

u0j表示由第j个学校的学校变量带来的截距上的

误差。将公式(4)、(5)、(6)代入公式(3)可得模

型1、2、11合并的模型为:

Yij=γ00+u0j+eij(7)

Yij=γ00+γ1X1+u0j+eij(8)

Yij=γ00+γ1X1+γ2X2+γ3X3+γ4X4+γ5X5+

γ6X6+γ7X7+γ8X8+γ9X9+γ10X10+u0j+eij

(9)

为验证二层级模型的拟合效果,首先,利用

AIC[3]

、BIC[4]

、LogLikelihood及似然比检验等统计

量指标依序对模型2~11与模型1的拟合优度进

行比较。然后,对前一步骤所得与模型1显著不

同的模型进行似然比检验。

结果如表3所示,有10个科目找出拟合效果

自变量

学校位置

学校类型

男/女/男女校

样本数

数据百分比

工作经验

公开考试阅卷经验

专业发展活动

等级描述经验

预估文凭试经验

类别/数值

香港岛/1

九龙/2

新界/3

资助学校/1

按位津贴学校/2

直接资助学校/3

官立学校/4

惩教机构/5

男校/1

女校/2

男女校/3

1~186

0~100

1~5年/1

6~10年/2

≥10年/3

0次/1

1~2次/2

3~4次/3

≥5次/4

从未使用过/1

曾尝试过/2

在情况许可下,会做/3

经常会做/4

从未预估过/1

每一年都会做/4

表2二层级模型自变量情况

注:样本数为参加等级预测研究的学生人数,数据百分比为校

内评核采用中学六年级模拟考试数据的百分比,等级描述

经验为采用文凭试等级描述在校内评核设计及向学生提

供反馈,预估文凭试经验为预估学生文凭试成绩的经验。

许嘉凌等:香港中学文凭考试等级预测研究·37·

①学校位置:九龙

①学校位置:新界

②学校类型:按位津贴学校

②学校类型:直接资助学校

②学校类型:官立学校

②学校类型:惩教机构

③男/女/男女校:女校

③男/女/男女校:男女校

④样本数

⑤数据百分比

⑥工作经验:6~10年

⑥工作经验:≥10年

⑦公开考试阅卷经验:1~2次

⑦公开考试阅卷经验:3~4次

⑦公开考试阅卷经验:≥5次

⑧专业发展活动:1~2次

⑧专业发展活动:3~4次

⑧专业发展活动:≥5次

⑨等级描述经验:尝试过

⑨等级描述经验:在情况许可

下,会做

⑨等级描述经验:经常会做

⑩预估文凭试经验:尝试过

⑩预估文凭试经验:在情况

许可下,会做

⑩预估文凭试经验:每一年

都会做

模型回归系数β

-0.85

(2.28)

-2.61

(2.25)

6.20

(7.80)

-0.84

(2.54)

2.19

(2.41)

39.83

(11.42)

1.47

(0.77)

0.82

(0.76)

-2.51

(2.74)

-0.96

(0.82)

1.14

(0.8)

21.82

(5.58)

1.28

(1.25)

2.08

(0.93)

0.02

(0.01)

-1.24

(0.98)

-1.49

(0.94)

3.50

(3.56)

-0.08

(0.96)

0.04

(1.05)

26.65

(7.53)

3.72

(1.84)

1.84

(1.37)

通识

教育

-0.41

(0.61)

-0.01

0.07

(1.60)

-0.61

(0.79)

0.51

(0.69)

21.11

(6.44)

1.31

-0.11

(0.72)

0.03

-0.13

(1.45)

-1.46

(1.49)

-2.27

(3.32)

2.09

(1.39)

0.35

(1.51)

5.12

(2.09)

4.26

(1.70)

0.12

(0.06)

视觉

艺术

1.24

(0.91)

-0.24

0.90

-0.19

(0.88)

0.14

(0.87)

-0.77

(1.19)

-0.65

(1.02)

0.22

(0.07)

1.33

(0.86)

0.79

0.26

-2.38

(0.81)

-1.82

-0.25

(0.46)

-0.55

(0.43)

-0.45

(1.3)

0.11

(0.47)

-0.07

7.28

(4.67)

(0.67)

-0.22

(0.48)

0.01

0.33

(0.75)

0.78

(0.73)

-0.72

(0.68)

-0.95

(0.71)

-0.88

-1.37

(0.62)

-0.32

6.44

(1.96)

5.50

6.04

(1.93)

会计与

财务概论

-3.90

(2.17)

-7.00

17.03

(6.22)

1.67

(2.21)

(2.11)

0.89

(3.27)

7.29

(2.5)

0.06

(0.04)

2.06

(3.01)

8.35

(2.50)

-0.51

(1.90)

-4.77

(2.37)

-2.37

(1.82)

-3.34

(3.93)

1.17

(3.98)

0.53

(3.87)

6.5

(2.32)

3.78

(2.27)

(2.12)

资讯及

通讯科技

-0.49

(2.61)

-3.19

(2.49)

0.88

(5.86)

-5.51

(2.92)

-2.05

3.88

(4.15)

3.93

(2.78)

0.31

(0.16)

-0.05

1.30

(3.06)

1.16

(2.26)

0.57

(1.94)

-3.14

(3.12)

(1.99)

-7.62

(6.33)

-3.21

(5.98)

-7.53

(5.89)

-17.17

(3.63)

-17.26

(3.68)

-14.28

(3.57)

化学

-7.30

(2.04)

-2.75

(1.83)

6.85

(6.86)

3.74

(1.68)

(1.91)

-1.41

(3.31)

1.43

(2.8)

-0.03

-0.09

(0.03)

5.44

8.12

-0.30

(1.74)

3.09

(2.30)

(1.71)

-4.45

(6.50)

2.02

(6.59)

-1.45

-5.20

(2.14)

-1.79

(2.19)

-3.59

(2.20)

10.4

(3.55)

7.39

(3.43)

2.68

(3.03)

表3多层线性模型分析结果

注:括号内数值为回归系数误差。

·38·

最好的二层级模型,分别为:经济科是模型3,英

文科、数学科、通识教育科、地理科是模型5,视觉

艺术科是模型8,中文科、会计与财务概论科、资

讯及通讯科技科是模型10,化学科是模型11。可

以发现,不同学校层级的自变量对于不同科目校

内评核的预测效果不同,且相同二层级模型对于

不同科目的预测效果也不同。例如,对于经济

科,参加学校的位置与类型对学生文凭试的预测

分数与真实分数的差异具有预测效果,其中:对

比于在香港岛的学校,九龙与新界学校的校内评

核易低估学生在文凭试的表现;而相比于资助学

校,按位津贴学校、官立学校、惩教机构容易高估

学生表现,直接资助学校则易低估学生表现。

10个学校层面自变量对于化学科均有预测效果。

按位津贴学校、直接资助学校或官立学校,或者

具有较长工作经验、较多公开考试阅卷经验或较

少预估文凭试经验的教师容易高估学生表现。

某些自变量所具有的学校个数资料量过少,造成

所估计回归模型系数误差过大,也会影响整体模

型解释,如惩教机构学校个数较少,其回归系数

误差皆较大。

四、结论与讨论

2020—2023年香港文凭试各科等级预测结

果显示,4科核心科目的预测结果具有较高的准

确性,其中,英文科预测结果最佳。选修科目的

预测结果则每年略有不同,其原因可能为,每年

选修人数少造成文凭试考试结果变化较大,加上

不少科目在2021年和2023年取消了校本评核,

进而影响每一年的预测结果,并影响到以过往文

凭试成绩作为历史参照标准化考生评核成绩的

结果,因此预测结果变异较大。

2023年采用问卷调查法,多层线性模型分析

显示,不同学校结构对于不同科目的校内评核具

有不同预测效果。未来可收集考生在校其他评

核成绩与模考成绩结合、增加学校层调查问卷样

本数或问卷题目,以找出影响校内评核因素,并

进一步提高预测准确度,进而为学校提供更多实

用的反馈,提升校内评估的信度与效度。

[1]香港考试及评核局.香港中学文凭考试评级程序与

www.hkeaa.edu.hk/DocLibrary/Media/Leaflets/HKDSE_

SRR_A4booklet_Mar2018.pdf.

[2]MAASCJM,HOXJJ.Sufficientsamplesizesformulti‐

levelmodeling[J].Methodology:EuropeanJournalofRe‐

searchMethodsfortheBehavioralandSocialSciences,

2005,1(3):86-92.

[3]AKAIKEH.FactoranalysisandAIC[J].Psychometrika,

1987,52(1):317-332.

[4]SCHWARZG.Estimatingthedimensionofamodel[J].

AnnalsofStatistics,1978,6(1):461-464.

PredictedLevelStudyoftheHongKongDiplomaof

SecondaryEducationExamination

Abstract:ToinvestigatethepredictionresultsoftheHongKongDiplomaofSecondaryEducation

(下转第101页)

许嘉凌等:香港中学文凭考试等级预测研究·39·

禤美瑶,女,香港考试及评核局评核科技及研究部高级主任;

周钜宽,男,香港考试及评核局评核科技及研究部经理;

杨汉基,男,香港考试及评核局评核科技及研究部高级主任;

席小明,女,香港考试及评核局考试、评核及研究部总监(通信作者)。

香港中学文凭考试

诊断反馈系统的开发及改进

摘要:为进一步推动“评核促进学习”,香港考试及评核局以历年香港中学文凭考试(HKDSE)

的评核数据为基础开发了HKDSE诊断反馈系统。目前,该系统结合HKDSE6个科目选择题的试

题库,对学生学习表现数据加以分析并建立统计模型,为教师与学生提供诊断性反馈报告,突出学

生在不同能力或范畴的不足与强项。来自14所学校的约2200名学生及教师试用了该系统,通过

问卷调查和访谈法,收集意见建议,以改进系统设计。系统改良版在“数据主导评核提升计划”中

正式推出,辅之以学科教师培训,以帮助学校提升评核质量。

关键词:香港中学文凭考试;诊断反馈;评核促进学习;个性化学习

DOI:10.19360/j.cnki.11-3303/g4.2024.02.006

香港考试及评核局(以下简称考评局)一直

致力于在学校推进“评核促进学习”,其主要目的

是提供实用的评核反馈,以促进学习和教学。在

资讯科技应用于评核服务的趋势推动下,考评局

自2019年起研发香港中学文凭考试(HongKong

DiplomaofSecondaryEducationExamination,

HKDSE,以下简称文凭试)诊断反馈系统(Diag‐

nosticFeedbackSystem,DFS)[1]

,针对过往的文凭

试选择题进行诊断反馈并形成报告,旨在更好地

实践“评核促进学习”理念。考评局与香港教育

城合作,在已有的网上试题学习平台上增加DFS

独有的版面和功能,学生只需完成几个简单步

骤,在线上完成试卷,便可收到诊断报告,获得全

面反馈。同时,教师也能获得详细的题目分析报

告,以便对教学和评核策略作出调整。在两轮学

校先导计划后,考评局于2022年正式推出“数据

主导评核提升计划”,为中学提供DFS和教师培

训,提升学校的评核工作水平。

一、文凭试DFS概述

在中国香港,学生完成3年全日制高中课程

后,可参加文凭试,成绩符合要求的考生将获发

香港中学文凭证书。一般而言,文凭试考生会报

考4个核心科目,以及2~3个选修科目。评级由

考评局负责,各个科目参照一套明确而固定的标

准,汇报考生表现对应的等级。为确保成绩报告

的方式符合国际标准、透明度高且清晰明确,文

凭试甲类科目(共有24科,其中4科为核心科目,

其余20科为选修科目)采用标准参照方式报告成

绩。考生在甲类科目的表现以5个等级(1~5级)

汇报,第5级为最高。在第5级考生中,成绩最优

异的可获评为5**级,成绩次佳的可获评为5*

级,

其余的则评为5级。考生表现低于第1级的标示

为“不予评级”。

文凭试开始于2012年,至今已开展10余年,

仅多项选择题一类,每科累积题目数以百计,可

提供丰富的评核和学习资源。考评局收集历年

考生的作答数据及考试成绩,利用统计和心理测

量技术,可以准确评估学生在特定内容或认知领

域的能力水平。为更有效地利用以上数据,提升

教师教学水平,同时为学生提供诊断性的反馈,

有必要建立高效的评核平台,即文凭试DFS。

截至2023年,反馈资讯涵盖2012—2021年

文凭试6个科目(数学、化学、物理、生物、经济,以

及企业、会计与财务概论)共约2000道题目。考

评局把过去文凭试的评核数据加以分析并建立

统计模型(如题目反应理论模型),提供每道题目

的难度属性,并参考历届考试成绩数据评估考生

的表现级别(A至D级)。为提供更丰富的资讯,

求,提供学习平台设计方面的专业建议和对试题

的分析,并进一步撰写反馈意见。

作为线上学习平台,相比纸本文凭试历届试

题或坊间的补充练习,DFS能提供更多即时的评

核资讯,供教师和学生参考。由于香港学校的师

生熟悉香港教育城(香港规模最大的一站式专业

教育网站)为网上试题学习平台(onlinequestion

bank,OQB)开发的多项选择题试题库,考评局与

香港教育城合作,把DFS融入OQB,使用者不需

要额外学习不同系统的操作。学习平台收到学

生的答案之后,会处理作答数据,借助测量模型,

分析学生的表现,评估学生在每个知识领域的能

力高低,从而得出评核报告。

教师可选择以不同的方式(年份/内容领域/

认知领域/题目难度/随机)运用文凭试的试题库

来组合适合的试卷,分派给指定学生进行评核。

学生直接在平台作答试卷,系统可以即时分析他

们的表现。提交答卷后,DFS分别向学生与教师

提供反馈报告。学生报告展示其整体表现,重点

列出学生在不同能力或范畴的强项及弱点,并显

示答错题目的重点考核知识、提示与答案。教师

报告提供所有学生的表现概要、分数与分析,以

及各题目的考核知识与答案,还可以根据需要检

视个别学生的报告。

二、DFS诊断报告内容

DFS诊断报告包括学生诊断报告和教师

报告。

(一)学生诊断报告

学生诊断报告包括以下四个部分。

1.估算级别

DFS会根据题目反应理论模型和评核结果

预测学生的综合能力水平,并提出估算级别,共

A、B、C、D四级,大致对应文凭试中第5级(或以

上)、4级、3级和2级(或以下)。完成线上评核

后,学生会立即获得有关其能力水平的客观反

馈,还可以追踪自己以往在平台上的成绩,反思

自身的学习进度,并尝试设立更高的学习目标。

图1展示了估算级别的报告页面。估算级别

以仪表盘的形式展示,若学生曾提交过相同科目

的测验评估,过往的估算级别也会显示。页面右

边呈现各个级别的描述,并突出显示本次评估获

得的级别。

2.不同内容领域和认知领域的表现

文凭试题目涉及各科目中不同的内容和认

知领域,其中,认知领域仅适用于某些科目。例

禤美瑶等:香港中学文凭考试诊断反馈系统的开发及改进·41·

如,在数学科(必修部分)中,其内容领域包括数

与代数、度量、图形与空间、数据处理等,其认知

领域包括有关数学表达形式的能力、将情景数学

化的能力和设定解题策略的能力;化学科的题目

则仅分析其内容领域,包括金属、酸和盐基、碳的

化学、物理化学原理等。

在学生完成一组文凭试题目后,系统会制作

一份学生在不同领域表现的诊断报告。在不同

方面对学生能力进行分类,可以辅助学生精准分

析自己的优势和不足,还可以针对特定模块的题

目作复习或进一步练习。报告用雷达图显示学

生能力高低,同时比较文凭试考生的平均成绩,

学生在群体中所处的位置一目了然,更容易帮助

其掌握自己的学习情况。图2展示了某学生经济

科学中弱点与强项的报告页面,其中,学生能力

和文凭试考生的平均能力分别以不同颜色的多

边形显示在同一雷达图中。

3.错答的试题及作答表现

DFS会根据学生的能力和题目难度,识别学

生应该能够解答的题目。对于本可以正确回答

的问题,学生可能在初次尝试时过于仓促而导致

非知识性失分,在这种情况下应该鼓励学生再次

作答,以更审慎的态度和更透彻的思考来避免类

似的错误。如图3所示,未能得分的题目用不同

颜色分类,红色是漏答的题目(图3中第45题),

黑色是错答的题目(图3中第16、37题)。错答题

目中蓝色表示“可避免错误”的题目(图3中第

9题),绿色表示“建议再尝试”的题目。根据测量

图1估算级别报告示例

图2某学生经济科学弱点与强项诊断报告

·42·

图3试卷审视报告截图

模型可知,“可避免错误”为学生能力以内的试

题,学生答对机会超过八成;“建议再尝试”题目

则稍微超出学生的能力,学生答对机会近五成。

4.题目的主要知识点或提示

DFS还提供反馈来辅助学生解答题目,旨在

让学生通过自学和重做题目来得出正确答案,收

获试题背后更具价值的知识和技巧。图3展示了

其中一道错答试题的主要知识点或提示。学科

专家经过分析,将历届考试题目归纳为不同的内

容或认知领域,为每一道题目编写知识点和提

示,而非直接提供答案。这是因为坊间许多题解

或工具书已经就文凭试的题目给出过参考答案,

并有不同角度的拆解和分析,仅呈现答案没有意

义。相反,在学生答错题目时以更加含蓄的方式

给予线索和提示,帮助其思考并厘清关键概念,

有助于学生形成解题思路,再次作答时准确率更

高。学科专家审视每一道题目时,主要根据题目

内容、正确率、难易程度、常见错误以及当年考生

实际答案的分布,针对每道题目的特性编写最适

切的主要知识点及提示,作为诊断性反馈。

为使提示更易于理解并涵盖更详细的解释,

知识点或提示以分层形式显示,越具体的解释层

次越高,学生可以根据自己的需要选择不同层次

的提示。这种设计能逐步引导学生思考,帮助学

生校正误区,减少对教师的依赖,同时也能减轻

教师的教学负担。

(二)教师报告

DFS教师报告包括四个部分。首先,教师报

告总结所有学生提交的试卷在各个方面的表现。

如图4所示,教师摘要报告会显示所有学生的成

绩,包括估算级别统计和在不同范畴的平均表

现,试题对应年份文凭试考生的平均表现也会提

禤美瑶等:香港中学文凭考试诊断反馈系统的开发及改进·43·

图4摘要报告截图

图5学生与题目分析报告截图

供作比较。其次,教师可查看个别学生的报告,

以更深入地分析学生表现,为不同能力的学生分

配不同的评核试卷。再次,题目分析部分总结学

生试卷中每道题目的表现,如图5所示,以表格形

式列出所有学生的成绩细节。最后,报告显示试

卷中每道题目的详细属性,包括题目分类、题目

难度、提示、主要知识点和正确答案。此外,试题

分析以表格形式列出评估中所有题目的资料及

所属范畴,这些分析报告方便教师查阅数据,并

进行排序、搜寻和筛选等操作。

·44·

三、DFS使用效果检验

考评局于2021年初推出首轮学校先导计划,

来自8所学校约1000名教师和学生试用了DFS

系统。在首轮学校先导计划后,考评局于2022年

再次邀请来自6所学校约1200名教师和学生试

用了6个科目的新版本系统。在先导计划中,教

师制作模拟试卷,供学生在线上进行现场考试或

课后练习,教师可以查看DFS分析学生表现而生

成的诊断报告。随后,考评局通过线上问卷收集

师生反馈,并以学校为单位开展访谈,收集使用

者的意见和建议。整体而言,参测学校认为DFS

所提供的有关学生表现的估算和个别题目的反

馈有一定价值,并对版面设计提出改进建议,以

便利用数据跟进学生学习需要。参考教师与学

生的意见,考评局重新设计和调整系统,更新了

各项功能。

考评局在先导计划中收到教师的反馈,认为

文凭试的题目十分适合用来评估学生的学习表

现。然而文凭试题目有限,不足以满足日常教学

和评估的需要,因此一线教师往往需要参考坊间

教科书的题目,但可能在选择契合学生能力的题

目方面面临一定困难。因此,考评局推出“数据

主导评核提升计划”,为中学提供DFS及评核质

量保证平台(AssessmentQuality-assurancePlat‐

form,AQP)服务[2]

,配合拟题培训支援学校教师,

提升学校整体的评核工作水平。AQP是由考评

局开发的另一套自动化网上系统,利用现代评核

科技分析测试题,以保证题目的质量。AQP于

2015年推出,目前有超过100所学校使用该平

台。“数据主导评核提升计划”训练教师使用AQP

分析测试数据,以了解不同学生的学习需要,并

辨别存在缺陷的题目,以便改善日后的评核设计。

2022学年,共有24所学校参加了为期两年

的“数据主导评核提升计划”。考评局为参与计

划的学校提供拟题培训,涵盖数学、化学、物理和

生物4个科目,由曾参与文凭试拟题的专家担任

导师,模拟编制校内测验卷的过程,依托实际经

验学习开发考试及评核题目的原则和方法。培

训在Moodle学习平台上设置学习单元,涵盖多个

试诊断反馈系统及评核质量保证平台、试卷设计

考虑、诊断反馈选择题等。每个单元包含添加语

音讲解的PPT及线上测验,大约需要一小时完

成。除有关拟题技巧和理论的线上课程外,培训

还包含面授课程。4个不同学科的教师在学科专

家的指导下模拟出卷和修改题目的过程,并学习

如何编写提供给学生的反馈。整个培训的设计

针对教师的实际工作需要,帮助其设计高质量的

评估以及编写信效度高的题目,进一步希望教师

完成课程后能够担当专家的角色,把所学的方法

在科组中实践,使学校更多同事获益。

在培训中,教师也可以和学科专家进行互动

参加这个培训后,我了解到DFS能协助学校

评估学生的能力,让教师据此针对性地作出教学

部署;而学生也可通过DFS系统,知道自己在哪

一范畴中表现出色,哪一范畴中表现稍逊,继而

自主地制订学习计划。例如,我们以DFS系统内

的内容领域,为高中学生设计一个两阶段的学习

流程。在学生完成一份试卷后,我会利用AQP系

统分析数据,找出学习难点并加以澄清。之后发

放第二份同类试卷,让同学再尝试一次。在学生

经历过第一次评估,并厘清自己的问题后,我相

信第二次测试的成绩必有进展。这样一来,学生

的自信心会提升,学识也会丰富起来。另外,对

于能力已超越该范畴的学生,在第一次评估后,

效果。

禤美瑶等:香港中学文凭考试诊断反馈系统的开发及改进·45·

四、结束语

总体而言,考评局希望通过DFS系统配合评

核设计和拟题培训,提高教师的评核素养水平,

优化学生的学习效果,强化学校利用促进学习的

评核和数据主导的决策。教师能够获得诊断反

馈和报告,深入了解学生的优势与劣势,并相应地

调整教学。此外,将诊断分析纳入日常运作,还

有助于提升教师评核设计和题目编写能力。DFS

除了现有的6个文凭试科目外,计划于2024年再

加入4个科目,包括旅游与款待、地理、体育、资讯

及通讯科技;每年也会更新试题库,以覆盖更多

文凭试题目,从而通过DFS系统向师生提供更丰

富的评核资讯。

提出的“考试不仅仅具有选拔功能,更重要的是

可以为学生、教师和家长提供改进学习的反馈信

息”[3]

。DFS不仅仅是利用统计和心理测量等技

的诊断性反馈和报告正是把复杂的内容及技能

解构,归纳重要范畴和能力,并根据常见的错误

或异常作答表现给予反馈,通过不仅指出错答试

题的数量,也指出可能存在的误解及错误的根

源,来提高学生的学习效果。

[1]香港考试与评核局.香港中学文凭考试(文凭试)诊

hkeaa.edu.hk/TuniS/www.hkeaa.edu.hk/tc/our_services/

assessment_literacy/dfs/.

[2]香港考试与评核局.评核质量保证平台(AQP)[EB/

hkeaa.edu.hk/tc/our_services/assessment_literacy/aqp/.

[3]张厚粲.教育测量学:高考科学化的技术保障[J].中

DevelopingandEnhancingtheHongKongDiplomaof

SecondaryEducationExaminationDiagnosticFeedbackSystem

HUENMei-yiu,SIUWai-lok,CHOWKui-foon,YEUNGHon-kei,XIXiaoming

AssessmentAuthorityhasdevelopedDiagnosticFeedbackSystem(DFS)fortheHongKongDiplomaof

SecondaryEducationExamination(HKDSE).TheDFSisbasedontheassessmentdataofpreviousHKDSE

examinations.Currently,thissystemintegratesthemultiple-choicequestionbanksofsixHKDSEsubjectsto

domainsorskillsets.Inapilotscheme,approximately2,200studentsandtheirteachersfrom14schools

testedtheDFS,whilesurveysandinterviewswereconductedtocollectsuggestionsforimprovingitsdesign.

Keywords:HongKongDiplomaofSecondaryEducationExamination(HKDSE);diagnosticfeedback;

THE END
1.天猫网店新入职客服的考试测试试卷(含答案)新入职的天猫网店客服,一般经过培训后还要通过考试测试才能正式上岗,本文为大家准备的是天猫网店新入职客服的考试测试试卷,含有答案,一共是100到题。 小萌今天整理了100道天猫网店新入职客服的考试测试题给大家,分别是判断题、单选题和多选题,一起来看看都包含哪些内容吧。 https://www.mmker.cn/article/5361.html
2.焦虑症测试免费,焦虑症测试自测量表免费属于自评量表,由32项轻躁狂症状组成,在各综合医院门诊中测试结果显示信效度较好。作为双向情感障碍筛查的辅助工具,得分大于等于14,则为筛查阳性。 https://www.zxgj.cn/g/hcl32 倍克-拉范森,躁狂量表(BRMS) 免费 由Bech和Rafaelsen于1978年编制,本量表共11项。选择最适合病人情况的分数,狂躁症测试题仅供自测参考http://www.jsfctech.com/yx/5g087/
3.平安测评IQ测试题30道及答案.pdf免费在线预览全文 平安测评IQ测试题30道及答案 1/43 平安测评IQ测试题30道及答案 一、第一部分 常识判断 (根据题目要求,在四个选项 选出一个最恰当的答案。) 1、造成我国1998年长江流域特大水灾的主要原因是 ( )。 A . 冬季风势力过强,降水过多 B. 冬季风势力过弱,降水过 C . 夏季风过强,北旱南涝https://m.book118.com/html/2023/0512/6213015044005130.shtm
4.70岁三力测试题库70岁三力测试题库,元贝驾考官网为您准备了70岁三力测试题库随机试题模拟考试训练,您需要在规定时间内完成给定的70岁三力测试题库答题。要继续进行更多的70岁三力测试题库练习,只需在答题结束后点击重新出卷按钮。元贝驾考官方网站助您考试成功早日拿证! https://www.ybjk.com/ks/nqhnnm.htm
5.心理降测试100题心理健康测试100题(1) 《心理健康测试100题》是2005年6月1日由人民军医出版社出版的图书,作者是范晓清和张广荣[1]。 该书编写了百余个心理健康测试题,旨在帮助读者成就事业,拥有美好的情感生活,拥有健康心理和幸福人生[1]。 快速导航 词条图册 书名 https://baike.sogou.com/v76251110.htm
6.海阳市政府职业教育年度报告烟台轻工业学校2021年中等职业教师们积极参加课题研究工作,有十六人参与“五位一体”子课题研究,并结题;有六人被评为海阳市“十三五”职业教育教科研工作先进个人,三人的教学成果被评为海阳市”十三五“职业教育优秀教学成果,烟台市职业教育”十三五“年度课题有一项立项,另有五项申请了烟台市职业教育”十四五“规划课题。通过科研课题研究,我们把https://www.haiyang.gov.cn/art/2021/11/25/art_48942_2912347.html
7.免费情感冷漠症测试25题小猫测试(xmcs.cn)情感冷漠症测试 25题 7.5w+人已测|157人点赞 共有25个测试问题,预计用时4分钟 个人版测试企业团体版 职业性格测评,可参考:MBTI 职业性格测试(免费版)、霍兰德职业兴趣测试(免费版)、九型人格测试(免费版)、大五人格测试(免费版)、艾森克人格测试(免费版)、disc个性测试、个人优势能力测评。https://www.xmcs.cn/x/lmz
8.双向情感障碍测试免费测试题双向情感障碍测试免费测试题 你是否经常感到情绪波动很大? 双向情感障碍是一种常见的精神疾病,会导致情绪的极端波动,从抑郁症的低落和绝望到躁狂症的过度兴奋和冲动。如果你经常感到情绪波动很大,例如突然感到非常高兴和充满能量,然后又变得非常悲伤和绝望,那么你可能患有双向情感障碍。其他症状包括睡眠模式改变、集中力https://www.iszxm.com/show-193881.html
9.九型人格测试(免费全版)2.测试包含144道2选1的题目。 3.在答题时,可能会遇到2种情况都不适用于你,或2种情况都适用于你,无论哪种情况,请务必只选择其中你最倾向的答案。 *当我不喜欢某些人时,我会掩藏自己的情感而努力地保持热情。 当我不喜欢某些人时,我会以这种或那种方式让他们知道我的情感。 * 100. 你认为正确的是: https://www.wjx.cn/vm/wXNUjtr.aspx
10.情商的测试题及答案(通用8篇)篇5:情商的测试题及答案 1.单选题(本题总分50.0分,每题2分)1.处理不良情感的最好方式是()。A.了解情感的自我知觉 B.提高情商 C.认真分析问题 D.与他人进行沟通 标准答案:A 2.情商和智商的关系是()。A.相互独立 B.相互影响 C.相互抵触 D.相互排斥 标准答案:B 3.学会划定恰当的心理界限对()有好处。https://www.360wenmi.com/f/filecy5t55oc.html