NeurIPS2024智能体不够聪明怎么办?让它像学徒一样持续学习推理智能体知识库

此项研究成果已被NeurIPS2024录用。该论文的第一作者是清华大学计算机系博士生关健(导师:黄民烈教授),目前任蚂蚁研究院副研究员,其主要研究领域为文本生成、复杂推理和偏好对齐。

更具挑战性的是,作为面向实际应用的产品,AIAgent在部署后还需要能够随着应用场景的演进和用户需求的变化而不断更新优化。这些实际问题都表明,构建一个真正实用的AIAgent绝非简单的提示工程(PromptEngineering)或模型微调(Fine-tuning)所能解决,而是需要更系统化的方法。

在NeurIPS2024上,来自清华大学和蚂蚁集团的研究者针对人工智能体构建方法的通用性和适应性提出了一个新方案。这个被命名为AMOR(AdaptableMOdulaRknowledgeagent)的系统,不仅能低成本地调用专业工具和知识库,更重要的是,它能像人类一样持续学习和成长。

AIAgent的「三大短板」:为什么它们还不够「聪明」?

想让AIAgent真正胜任助手角色,仅有海量知识是远远不够的。研究团队通过深入分析发现,当前AIAgent普遍存在三大短板:

更令人困扰的是,目前业界主流方案都未能同时解决这三大难题。作者对比了当前最具代表性的AIAgent框架,它们要么推理过程不可控,要么知识固化,要么反馈机制过于粗糙。这一困境在开源模型中表现得尤为明显。

AMOR和已有构建智能体的代表性方法的比较

AMOR:基于有限状态机的模块化推理方案

如何让AIAgent既能像专家一样严谨思考,又能像学徒一样持续成长?AMOR框架给出了一个优雅的答案:将复杂的AI推理过程拆解成可控的「专家模块」,通过有限状态机(FSM)编排它们的协作规则,就像精密的齿轮系统一样,每个部件都完美啮合。

AMOR的状态转移图

这种设计带来三大关键优势:

1.结构化推理框架

FSM使得定义步骤间的依赖关系(例如,执行顺序、分支选择)非常方便,因此能够容易地对错误的路径进行剪枝,从而缩小探索空间,也有潜力更高效地构建类OpenAI-O1的长推理链。

2.「双阶段」训练策略

通过将复杂任务解耦为独立模块,AMOR能够独立训练每个模块,从而可以充分利用开源数据集。具体而言,AMOR采用「预热+适应」两阶段训练模式:

3.过程反馈机制

传统AI训练就像只告诉学生「考试及格/不及格」,而不指出具体错在哪里。这种粗糙的反馈机制常常导致AI像「黑盒」一样难以诊断问题,训练效果事倍功半。而AMOR引入「过程反馈」机制,在适应训练阶段中,其结构化的推理过程使用户能够轻松诊断智能体的错误,并提供过程反馈以提高智能体的推理能力。

4.框架通用性

这种可扩展的架构设计使得AMOR不仅能够解决当前的知识推理任务,更为未来接入新的知识源、任务类型和工具能力预留了充足的扩展空间。正如论文所述,AMOR提供了一个构建知识智能体的通用框架,其核心思想是基于FSM的推理逻辑和过程反馈机制,这使得它能够适应各种不同的应用场景需求。

AMOR实现:模型结构和训练过程

AMOR采用了一种巧妙的「专家混合」架构(Module-AwareMixture-of-Experts,简称MA-MoE)。这种设计灵感来自人类的专业分工:就像一个人可以是优秀的医生,同时在其他领域保持基本能力。具体来说,MA-MoE为每个功能模块配备了独特的FFN参数,并用原始模型的FFN参数进行初始化。这就像是在AI的「大脑」中划分了专门的「思维区域」。

AMOR实验:成本更低,效果更好

在HotpotQA(百科知识问答)、PubMedQA(医学文献问答)和QASPER(论文长文本问答)三个基准测试中,AMOR展现出优秀的性能:

AMOR及基线方法在微调或不微调时的实验结果

实例展示

下图比较了AMOR和传统的ReAct框架(基于GPT-3.5)分别回答同一问题的推理过程:

AMOR(上)和ReAct(下)回答同一输入问题的样例

如图所示,没有明确推理逻辑约束的ReAct未能成功分解问题,并在「Thought/Action5」中过早地终止检索。此外,ReAct在「Thought2/4/5」中也混合了正确和错误的步骤,这使得用户难以针对性地批评和改进智能体。相比之下,AMOR则如同经验丰富的专家,每一步推理都清晰可控,不仅能准确找到答案,还能接受精确的过程指导,持续提升自己的能力。

成本分析

在AI领域,性能提升往往意味着更高的成本。然而,如下图所示,AMOR打破了这个「魔咒」。

不同智能体的平均步骤数/token数对比

为什么AMOR如此高效?想象一个团队会议:传统方法(如ReAct)像是每个人发言都要重复之前所有人说过的话;AMOR则像是精心设计的会议流程:每个环节只传递必要信息。按照目前API调用成本计算,使用GPT-4o处理1万个问题,AMOR比ReAct节省数百美元;当使用开源模型时,成本可以进一步降低90%以上。这意味着AMOR不仅在性能上领先,在商业落地时也具有显著的成本优势。尤其适合大规模文档处理、客服智能问答、专业领域咨询等高频场景的应用。

结语

本文介绍了AMOR——一个为知识密集型任务设计的模块化智能体框架。它通过FSM推理系统和过程反馈机制,让AI展现出前所未有的推理能力和学习潜力。AMOR的成功为AI助手的发展开辟了新路径。作者表示,接下来,他们将拓展到更多知识类型(如结构化知识库)、探索更广泛的应用场景、研究AI自主设计推理逻辑的可能性。这些工作预示着我们正在接近真正的「AI专家」:既有清晰的推理能力,又能在实践中持续成长。

THE END
1.荣格八维测试导语:MBTI分类理论起源于荣格的八维人格分类学说。也许一切回归原汁原味的理论本源,能更清晰看清楚自己。学术界争议的迈尔斯母女增加的JP维度是有力补充还是画蛇添足,不如亲自体验比对一次。你也可以试试具有较浓的东方特色的通俗易懂中文版荣格功能测试。其分析报告偏向东亚文化特色,对积极和消极的性格描述更为真实。https://www.apesk.com/mbti2/rongge/
2.免费性格测试类型描述人际关系和职业建议16Personalities“终于被理解的感觉真好。” 只需10分钟,就能“惊人般准确”地描述出你是谁,以及你为何以这样的方式行事。 参加测试https://www.16personalities.com/ch
3.荣格八维测试点击测试 本量表以荣格的心理类型与约翰毕比荣格八维模型作为理论根据,主要用来帮助定位和察觉个体擅长使用的认知功能,找到自己最舒适自然的状态和优势。 请注意,本量表不测量任何人的能力,必然有的行为,社会地位及未来运势。 作答时,请根据第一反应分配你的数值,数值越高代表倾向越强。请尽可能按照实际情况或倾向做https://totypes.com/xinggeceshi.php
4.(麋鹿)MBTI八维倾向测试(免费)目前MBTI八维测试已经全面的更新了题库,以及分析与建议,并且增加了-A(坚定)和-T(犹豫)两个维度。 为了确保测试结果的准确性和真实性,希望你能如实的回答问题,避免自我欺骗、自我理想化的回答问题。 MBTI和荣格八维的理论无法涉及的领域包括:人格不健全群体、人格障碍群体、多重人格群体、自我欺骗群体。 所以不要过https://jinshuju.net/f/VN3xMJ
5.荣格八维认知功能测试可以麻烦比较懂八维功能的友友帮忙解读一下下我的测试结 (INFJ的奇幻之旅小组) 组里有i测试吗 有什么有意思的测试给我分享分享 (影视综艺双一流小组) 干货|或许有宝宝对荣格八维感兴趣吗?(太多了,先收摊) (泡菜拌生鱼小组) 快乐团建|进来投票,你是哪种mbti(新增八维测试链接) (欧美娱小组)https://www.douban.com/group/topic/309973921/
6.荣格八维不同功能使用者的学习方式(测试版)如果不知道八维也懒得测试可以不填八维! mbti测试链接https://www.16personalities.com/ch/%E4%BA%BA%E6%A0%BC%E6%B5%8B%E8%AF%95 八维测试链接(32题尽量做一下) https://www.jungus.cn/zh-hans/test/Standard 1. 你的性别: https://www.wjx.cn/xz/253977186.aspx
7.至今为止做过的各种测试+网站链接(随时更新)https://www.jungus.cn/zh-hans/test/Standard ②普及度第二高的八维测试,才储。感觉并没有很准很有参考性……而且题出得很啰嗦,所以不太推荐。不过也可以报以“做了比不做好”的心态试试看。 http://www.apesk.com/mbti2/rongge/ ③普及度第三高的,是才储出的另一套观感更舒适的八维测试(我甚至觉得https://zhuanlan.zhihu.com/p/536794425
8.荣格八维与九型人格部分免费测试链接整理需要明确的是:人格类型本身不会变化,变化的只是测试结果。所以,测出某个结果并不意味着您就一定是那种人格类型。这些测试的局限性较大,只能作为参考。 【八维测试相关链接】 荣格认知功能测试(非迫选72题)【专业版】 荣格认知功能测试(非迫选72题)链接:https://www.jung-test.com/ https://www.yoojia.com/ask/17-14047085422444325627.html