NeurIPS2024智能体不够聪明怎么办？让它像学徒一样持续学习推理智能体知识库|jungus八维测试_算命

此项研究成果已被NeurIPS2024录用。该论文的第一作者是清华大学计算机系博士生关健（导师：黄民烈教授），目前任蚂蚁研究院副研究员，其主要研究领域为文本生成、复杂推理和偏好对齐。

更具挑战性的是，作为面向实际应用的产品，AIAgent在部署后还需要能够随着应用场景的演进和用户需求的变化而不断更新优化。这些实际问题都表明，构建一个真正实用的AIAgent绝非简单的提示工程（PromptEngineering）或模型微调（Fine-tuning）所能解决，而是需要更系统化的方法。

在NeurIPS2024上，来自清华大学和蚂蚁集团的研究者针对人工智能体构建方法的通用性和适应性提出了一个新方案。这个被命名为AMOR（AdaptableMOdulaRknowledgeagent）的系统，不仅能低成本地调用专业工具和知识库，更重要的是，它能像人类一样持续学习和成长。

AIAgent的「三大短板」：为什么它们还不够「聪明」？

想让AIAgent真正胜任助手角色，仅有海量知识是远远不够的。研究团队通过深入分析发现，当前AIAgent普遍存在三大短板：

更令人困扰的是，目前业界主流方案都未能同时解决这三大难题。作者对比了当前最具代表性的AIAgent框架，它们要么推理过程不可控，要么知识固化，要么反馈机制过于粗糙。这一困境在开源模型中表现得尤为明显。

AMOR和已有构建智能体的代表性方法的比较

AMOR：基于有限状态机的模块化推理方案

如何让AIAgent既能像专家一样严谨思考，又能像学徒一样持续成长？AMOR框架给出了一个优雅的答案：将复杂的AI推理过程拆解成可控的「专家模块」，通过有限状态机（FSM）编排它们的协作规则，就像精密的齿轮系统一样，每个部件都完美啮合。

AMOR的状态转移图

这种设计带来三大关键优势：

1.结构化推理框架

FSM使得定义步骤间的依赖关系（例如，执行顺序、分支选择）非常方便，因此能够容易地对错误的路径进行剪枝，从而缩小探索空间，也有潜力更高效地构建类OpenAI-O1的长推理链。

2.「双阶段」训练策略

通过将复杂任务解耦为独立模块，AMOR能够独立训练每个模块，从而可以充分利用开源数据集。具体而言，AMOR采用「预热+适应」两阶段训练模式：

3.过程反馈机制

传统AI训练就像只告诉学生「考试及格/不及格」，而不指出具体错在哪里。这种粗糙的反馈机制常常导致AI像「黑盒」一样难以诊断问题，训练效果事倍功半。而AMOR引入「过程反馈」机制，在适应训练阶段中，其结构化的推理过程使用户能够轻松诊断智能体的错误，并提供过程反馈以提高智能体的推理能力。

4.框架通用性

这种可扩展的架构设计使得AMOR不仅能够解决当前的知识推理任务，更为未来接入新的知识源、任务类型和工具能力预留了充足的扩展空间。正如论文所述，AMOR提供了一个构建知识智能体的通用框架，其核心思想是基于FSM的推理逻辑和过程反馈机制，这使得它能够适应各种不同的应用场景需求。

AMOR实现：模型结构和训练过程

AMOR采用了一种巧妙的「专家混合」架构（Module-AwareMixture-of-Experts，简称MA-MoE）。这种设计灵感来自人类的专业分工：就像一个人可以是优秀的医生，同时在其他领域保持基本能力。具体来说，MA-MoE为每个功能模块配备了独特的FFN参数，并用原始模型的FFN参数进行初始化。这就像是在AI的「大脑」中划分了专门的「思维区域」。

AMOR实验：成本更低，效果更好

在HotpotQA（百科知识问答）、PubMedQA（医学文献问答）和QASPER（论文长文本问答）三个基准测试中，AMOR展现出优秀的性能：

AMOR及基线方法在微调或不微调时的实验结果

实例展示

下图比较了AMOR和传统的ReAct框架（基于GPT-3.5）分别回答同一问题的推理过程：

AMOR（上）和ReAct（下）回答同一输入问题的样例

如图所示，没有明确推理逻辑约束的ReAct未能成功分解问题，并在「Thought/Action5」中过早地终止检索。此外，ReAct在「Thought2/4/5」中也混合了正确和错误的步骤，这使得用户难以针对性地批评和改进智能体。相比之下，AMOR则如同经验丰富的专家，每一步推理都清晰可控，不仅能准确找到答案，还能接受精确的过程指导，持续提升自己的能力。

成本分析

在AI领域，性能提升往往意味着更高的成本。然而，如下图所示，AMOR打破了这个「魔咒」。

不同智能体的平均步骤数/token数对比

为什么AMOR如此高效？想象一个团队会议：传统方法（如ReAct）像是每个人发言都要重复之前所有人说过的话；AMOR则像是精心设计的会议流程：每个环节只传递必要信息。按照目前API调用成本计算，使用GPT-4o处理1万个问题，AMOR比ReAct节省数百美元；当使用开源模型时，成本可以进一步降低90%以上。这意味着AMOR不仅在性能上领先，在商业落地时也具有显著的成本优势。尤其适合大规模文档处理、客服智能问答、专业领域咨询等高频场景的应用。

结语

本文介绍了AMOR——一个为知识密集型任务设计的模块化智能体框架。它通过FSM推理系统和过程反馈机制，让AI展现出前所未有的推理能力和学习潜力。AMOR的成功为AI助手的发展开辟了新路径。作者表示，接下来，他们将拓展到更多知识类型（如结构化知识库）、探索更广泛的应用场景、研究AI自主设计推理逻辑的可能性。这些工作预示着我们正在接近真正的「AI专家」：既有清晰的推理能力，又能在实践中持续成长。

THE END

NeurIPS2024智能体不够聪明怎么办？让它像学徒一样持续学习推理智能体知识库

NeurIPS2024智能体不够聪明怎么办？让它像学徒一样持续学习推理智能体知识库

jungus八维测试专业版认知功能120

八维人格测试

荣格斯心理测评

各类心理测试人格测试认知功能测试网站集锦

每周心理学八维人格功能

MBTI与石剪布属性对照