本篇综述的作者团队包括亚利桑那州立大学的博士研究生李大卫,蒋博涵,AlimohammadBeigi,赵成帅,谭箴,AmritaBhattacharje,指导老师刘欢教授,来自伊利诺伊大学芝加哥分校的黄良杰,程璐教授,来自马里兰大学巴尔的摩郡分校的江宇轩,来自伊利诺伊理工的陈灿宇,来自加州大学伯克利分校的吴天昊以及来自埃默里大学的舒凯教授。
摘要:评估和评价长期以来一直是人工智能(AI)和自然语言处理(NLP)中的关键挑战。然而,传统方法,无论是基于匹配还是基于词嵌入,往往无法判断精妙的属性并提供令人满意的结果。大型语言模型(LLM)的最新进展启发了“LLM-as-a-judge”范式,其中LLM被用于在各种任务和应用程序中执行评分、排名或选择。本文对基于LLM的判断和评估进行了全面的调查,为推动这一新兴领域的发展提供了深入的概述。我们首先从输入和输出的角度给出详细的定义。然后,我们介绍一个全面的分类法,从三个维度探索LLM-as-a-judge:评判什么(whattojudge)、如何评判(howtojudge)以及在哪里评判(wheretojudge)。最后,我们归纳了评估LLM作为评判者的基准数据集,并强调了关键挑战和有希望的方向,旨在提供有价值的见解并启发这一有希望的研究领域的未来研究。
LLM-as-a-judge的定义
在这篇工作中,我们提出根据输入和输出格式的区别对LLM-as-a-judge进行了定义。首先,根据输入候选样本个数的不同,在输入的层面LLM-as-a-judge可以分为逐点和成对/列表输入;另外,根据模型输出格式的不同,在输出的层面LLM-as-a-judge的目的可以分为评分,排序和选择。
Attribute:评判什么
Methodology:如何评判
表1:LLM-as-a-judge训练方法
(2)提示:提示(prompting)技术可以有效提升LLM-as-a-judge的性能和效率。在这一章节中,我们总结了目前工作中常用到几类提示策略,分别是:交换操作,规则增强,多智能体合作,演示增强,多轮动态交互和对比加速。
Application:何时评判
(1)评估:传统NLP中的评估通常采用静态的指标作为依据,然而它们常常不能够很好的捕捉细粒度的语义信息。因此,LLM-as-a-judge被广泛引入到模型评估的场景中,进行开放式生成,推理过程以及各种新兴NLP任务的评测。
(4)推理:在推理过程中,LLM在很多场景下会被赋予使用工具,API或者搜索引擎的权限。在这些任务中,LLM-as-a-judge可以依据当前的上下文和状态选择最合理可行的外部工具。另外,LLM-as-a-judge还被广泛引用于推理路径的选择,通过过程奖励指导模型进行状态步骤转移。
基准:评判LLM-as-a-judge
表2:LLM-as-a-judge数据集和基线
展望:挑战和机遇
(1)偏见与脆弱性:大模型作为评判者,一直受困扰于各种各样影响评价公平性的偏见,例如顺序偏见,自我偏好偏见,长度偏见等。同时,基于大模型的评价系统在面对外部攻击时的鲁棒性也存在一定不足。因此,LLM-as-a-judge未来工作的一个方向是研究如何揭露和改善这些偏见,并提升系统面对攻击的鲁棒性。
(2)更动态,复杂的评判:早期的LLM-as-a-judge通常只采用比较简单的指令来prompt大模型。随着技术的发展,越来越多复杂且动态的LLM-as-a-judge框架被开发出来,例如多智能体判断和LLM-as-a-examiner。在未来,一个有前景的研究方向是开发具有人类评判思维的大模型智能体;另外,开发一个基于大模型自适应难度的评判系统也很重要。
(3)自我判断:LLM-as-a-judge长期以来一直受困扰于“先有鸡还是先有蛋”的困境:强大的评估者对于训练强大的LLM至关重要,但通过偏好学习提升LLM则需要公正的评估者。理想状况下,我们希望最强大的大模型能够进行公正的自我判断,从而不断优化它自身。然而,大模型具有的各种判断偏见偏好使得它们往往不能够客观的评价自己输出的内容。在未来,开发能够进行自我评判的(一组)大模型对于模型自我进化至关重要。
总结
本文探讨了LLM-as-a-judge的惊喜微妙之处。我们首先根据输入格式(逐点、成对和列表)和输出格式(包括评分、排名和选择)对现有的基于LLM-as-a-judge进行定义。然后,我们提出了一个全面的LLM-as-a-judge的分类法,涵盖了判断属性、方法和应用。此后,我们介绍了LLM-as-a-judge的详细基准集合,并结合了对当前挑战和未来方向的深思熟虑的分析,旨在为这一新兴领域的未来工作提供更多资源和见解。