关于LLMasajudge范式,终于有综述讲明白了智能体新浪财经

本篇综述的作者团队包括亚利桑那州立大学的博士研究生李大卫,蒋博涵,AlimohammadBeigi,赵成帅,谭箴,AmritaBhattacharje,指导老师刘欢教授,来自伊利诺伊大学芝加哥分校的黄良杰,程璐教授,来自马里兰大学巴尔的摩郡分校的江宇轩,来自伊利诺伊理工的陈灿宇,来自加州大学伯克利分校的吴天昊以及来自埃默里大学的舒凯教授。

摘要:评估和评价长期以来一直是人工智能(AI)和自然语言处理(NLP)中的关键挑战。然而,传统方法,无论是基于匹配还是基于词嵌入,往往无法判断精妙的属性并提供令人满意的结果。大型语言模型(LLM)的最新进展启发了“LLM-as-a-judge”范式,其中LLM被用于在各种任务和应用程序中执行评分、排名或选择。本文对基于LLM的判断和评估进行了全面的调查,为推动这一新兴领域的发展提供了深入的概述。我们首先从输入和输出的角度给出详细的定义。然后,我们介绍一个全面的分类法,从三个维度探索LLM-as-a-judge:评判什么(whattojudge)、如何评判(howtojudge)以及在哪里评判(wheretojudge)。最后,我们归纳了评估LLM作为评判者的基准数据集,并强调了关键挑战和有希望的方向,旨在提供有价值的见解并启发这一有希望的研究领域的未来研究。

LLM-as-a-judge的定义

在这篇工作中,我们提出根据输入和输出格式的区别对LLM-as-a-judge进行了定义。首先,根据输入候选样本个数的不同,在输入的层面LLM-as-a-judge可以分为逐点和成对/列表输入;另外,根据模型输出格式的不同,在输出的层面LLM-as-a-judge的目的可以分为评分,排序和选择。

Attribute:评判什么

Methodology:如何评判

表1:LLM-as-a-judge训练方法

(2)提示:提示(prompting)技术可以有效提升LLM-as-a-judge的性能和效率。在这一章节中,我们总结了目前工作中常用到几类提示策略,分别是:交换操作,规则增强,多智能体合作,演示增强,多轮动态交互和对比加速。

Application:何时评判

(1)评估:传统NLP中的评估通常采用静态的指标作为依据,然而它们常常不能够很好的捕捉细粒度的语义信息。因此,LLM-as-a-judge被广泛引入到模型评估的场景中,进行开放式生成,推理过程以及各种新兴NLP任务的评测。

(4)推理:在推理过程中,LLM在很多场景下会被赋予使用工具,API或者搜索引擎的权限。在这些任务中,LLM-as-a-judge可以依据当前的上下文和状态选择最合理可行的外部工具。另外,LLM-as-a-judge还被广泛引用于推理路径的选择,通过过程奖励指导模型进行状态步骤转移。

基准:评判LLM-as-a-judge

表2:LLM-as-a-judge数据集和基线

展望:挑战和机遇

(1)偏见与脆弱性:大模型作为评判者,一直受困扰于各种各样影响评价公平性的偏见,例如顺序偏见,自我偏好偏见,长度偏见等。同时,基于大模型的评价系统在面对外部攻击时的鲁棒性也存在一定不足。因此,LLM-as-a-judge未来工作的一个方向是研究如何揭露和改善这些偏见,并提升系统面对攻击的鲁棒性。

(2)更动态,复杂的评判:早期的LLM-as-a-judge通常只采用比较简单的指令来prompt大模型。随着技术的发展,越来越多复杂且动态的LLM-as-a-judge框架被开发出来,例如多智能体判断和LLM-as-a-examiner。在未来,一个有前景的研究方向是开发具有人类评判思维的大模型智能体;另外,开发一个基于大模型自适应难度的评判系统也很重要。

(3)自我判断:LLM-as-a-judge长期以来一直受困扰于“先有鸡还是先有蛋”的困境:强大的评估者对于训练强大的LLM至关重要,但通过偏好学习提升LLM则需要公正的评估者。理想状况下,我们希望最强大的大模型能够进行公正的自我判断,从而不断优化它自身。然而,大模型具有的各种判断偏见偏好使得它们往往不能够客观的评价自己输出的内容。在未来,开发能够进行自我评判的(一组)大模型对于模型自我进化至关重要。

总结

本文探讨了LLM-as-a-judge的惊喜微妙之处。我们首先根据输入格式(逐点、成对和列表)和输出格式(包括评分、排名和选择)对现有的基于LLM-as-a-judge进行定义。然后,我们提出了一个全面的LLM-as-a-judge的分类法,涵盖了判断属性、方法和应用。此后,我们介绍了LLM-as-a-judge的详细基准集合,并结合了对当前挑战和未来方向的深思熟虑的分析,旨在为这一新兴领域的未来工作提供更多资源和见解。

THE END
1.哈佛大学公开课《公正》学习感受经管文库(原现哈佛大学公开课《公正》学习感受 https://bbs.pinggu.org/thread-13050784-1-1.html
2.哈佛法学院HarvardLawSchool对法律教育界有什么特殊贡献哈佛法学院是美国最著名的法律学校之一,位于马萨诸塞州剑桥市,是美国哈佛大学的一个重要组成部分。作为世界上最顶尖的法学研究机构之一,它不仅培养了无数杰出的律师和学者,还在全球范围内对法律教育、理论研究和实务应用产生了深远影响。 首先,哈佛法学院以其卓越的教学质量而闻名。该校拥有一流的教师队伍,他们都是https://www.hlccocxhv.cn/news/414061.html
3.探索波士顿大学的学术辉煌从哈佛法学院到沃尔夫森化合物生物学波士顿大学自19世纪末成立以来,就以其卓越的教学质量和深厚的研究氛围而闻名。作为美国东部的一座顶尖高等教育机构,波士顿大学不仅吸引了来自世界各地的学生,也培养了一大批在全球范围内具有影响力的学者和专家。 哈佛法学院:法律知识之源泉 在众多优秀院校中,哈佛法学院无疑是最具代表性的法律学习中心之一。它不仅为学https://www.1c5sggxx.cn/liu-xue-sheng-huo/505768.html
4.哈佛研究:辩论提高智哈佛研究:辩论提高智商 19次观看 · 5小时前· 发布于 加拿大 转发 评论 赞方也的空间在线英文辩论课程 42粉丝 关注 FangyeEducation专注线上英文辩论课程,由北美顶尖辩论选手执教。报名请加微信(Education _2014) ? 0条评论 同时转发评论 快来发表你的评论吧 https://weibo.com/tv/show/1034:5108832247152662
5.正义无声谁来发声?法学教授的一堂震撼课正义无声谁来发声?法学教授的一堂震撼课椰椰奶糖 广东 0 打开网易新闻 体验效果更佳王牌飞行员的零式战机被F4U战斗机击落,阴沟里翻船 空易解说 1848跟贴 打开APP 林彪号称“军事怪才”,吃饭总是老3样,厨师心疼:我做点好吃的 喂喂黄 315跟贴 打开APP 协警转正后看不起同事,嚣张跋扈的他还抓了大人物。 一https://m.163.com/v/video/VOHNHPD4I.html
6.哈佛公开课B站地址:https://www.bilibili.com/video/BV1wx411S7fK?p=1 第二讲《食人惨案》 后果主义道德推理:依据行为产生的后果及外界评价判断是否道德。(边沁:功利主义道德论——最大化功利) 功利主义:幸福=快乐-痛苦 “为最多的人谋求最大的幸福” 真实案例:女王诉Dudley和Stevens案(19世纪) https://m.douban.com/note/763348002/
7.哈佛公开课justice中关于康德绝对主义道德的几个问题桑德尔教授刷刷题APP(shuashuati.com)是专业的大学生刷题搜题拍题答疑工具,刷刷题提供哈佛公开课justice中关于康德绝对主义道德的几个问题 桑德尔教授提出了一个杀手在门外的案例 当你提供一个误导性事实的时候,你本身就关注了结果,希望杀手不要去追踪你的朋友 难道不是和绝对主义道https://www.shuashuati.com/ti/8b5d531e016747cba2b2914d415597db.html
8.公开课哈佛大学:公正Justice桑德尔(全12讲)【公开课】哈佛大学:公正Justice 桑德尔(全12讲) 本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。http://www.360doc.com/content/22/0504/06/54970901_1029644635.shtml
9.OpenHarvardCourses哈佛大学公开课要点赏析Justice:What'sthe本句话用来解释人们为什么不会选择功利主义的原因,“the veil goesup"使用了隐喻,形象 地说明了“一 旦幕布升起,真实的生活就会开始”,所以,人们在“无知之幕”后不会选择“功利主义”,因为人们不知道在现实世界中自己会扮演什么角色。 ②We wouldn't want to take the chance that we would wind up as membhttps://www.jianshu.com/p/38102055f894
10.英文原版Justice迈克尔桑德尔公开课哈佛教授的政治经济学入门课公正 做哪些事是正确的 英文原版 Justice 迈克尔桑德尔公开课 哈佛教授的政治经济学入门课 理性精神思辨的价值和魅力 公正:做哪些事是正确的弘书阁旗舰店 登录查看更多图片 > 公正 做哪些事是正确的 英文原版 Justice 迈克尔桑德 Michael J. Sandel 著 京东价 ¥ 促销 展开促销 配送至 --请选择-- https://item.jd.com/10046839761543.html
11.哈佛大学公开课《公正:该如何做是好》:全五课:英文字幕哈佛大学公开课《公平与正义》全12集 标题:哈佛大学公开课《公平与正义》全12集115网盘下载,英文对白中文字幕。 ◎片名 Justice What's The Right Thing To Do ◎译名公平与正义 ◎年代 2009 ◎影片类型纪录片/讲座 ◎片长 60Mins ×12 ◎国家美国 ◎对白语言英语 ◎字幕中文简/繁/英 ◎编码 x264 + AAC https://m.360docs.net/doc/3518879626.html
12.哈佛免费公开课介绍——大数据分析经济与社会问题Stata 33 讲,100 万+ 播放,Stata 入门必备,公开课 直击面板数据模型,10 万+ 播放,白话面板模型,公开课 … more … 论文复现和数据 学术论文重现网站大全 常用数据库|人文社科开放数据库 主题分类 所有分类|Stata教程|结果输出|绘图|数据处理 回归分析|面板数据|交乘项|因果推断|DID|RDD https://lianxh.cn/news/e7c689d27709c.html
13.无人驾驶汽车也遇到了哈佛公开课《公正》中的道德难题其中一个典型的例子就是一辆冲向五位大意行人的失控矿车(还记得那门叫做《Justice?》的哈佛公开课吗?)。在来不及提醒他们的情况下,你唯一的选择就是拨动开关转换到另一条轨道上,因为这条轨道上只有一位行人。这样你就可以牺牲一人来挽救另外五人。在这种情况下,你会怎样做?https://www.36kr.com/p/5051868
14.“网易公开课”的大学生受众认知分析Word模板下载本模板为“网易公开课”的大学生受众认知分析,格式为word,论文风格,可用于校园教育演讲展示,文字图片可以直接替换,使用简单方便。https://m.tukuppt.com/muban/jpyzrxmg.html
15.哈佛大学人文社科公开课集前段哈佛大学燕京学社古籍数字化全部完成的消息着实火了一把。其实哈佛大学的电子资源非常丰富,若有时间应专门写篇文章介绍下(之前在微博推过很多)。较之电子资源,哈佛大学公开课似乎要单薄些(在全世界的情况不了解,在国内至少做熟的没有耶鲁大学的多),所以今天才想起来推送哈佛大学的公开课。 https://m.weibo.cn/ttarticle/p/show?id=2309404146735600502650
16.哈佛大学公开课《幸福课》(视频+MP3+双语字幕):第446期All the class can do, whether it's 1504 or Justice or Psych 1. 所有的课程,不管是1504还是公正课或心理学1 All the class all workshop and seminar. All they can do is introduce attitudinal change. 所有的课程,讲习班,研讨会。所做的都是改变态度 In this class, attitudinal change is one, fohttp://kekenet.com/Article/201904/582661.shtml