当Agent开始自己创造自己,AI产品爆发还会是遥远的梦吗?腾讯云开发者社区

“大模型很酷,但我能用它做什么?“这是2023年的年度AI应用之问。而到了2024年,智能体(Agent)已成为这个问题最有希望的解药。

智能体能够通过复杂流程和工具使用,使大模型能处理更复杂、更定制化的任务,最终产生具有自主性、感知能力、决策能力和行动能力的软件实体或物理实体。吴恩达、JimFan等圈内大佬纷纷投身其中,证明智能体的有效性。

吴恩达教授今年3月在博客中提出,在HumanEval数据集中使用GPT-3.5(Zero-shot)的测试正确率为48.1%。GPT-4(Zero-shot)为67.0%。而通过与Agentworkflow配合,GPT-3.5实现了95.1%的正确率。

(图注:吴恩达进行的实验,在智能体技术下,GPT3.5性能远超原始的GPT4)

因此这一年来,从大公司到民间高手都在搭建智能体。大到微软的Copilit,小到无厘头的AI算命,Langchain、Coze、Dify这些搭建智能体框架的工具也雨后春笋般开枝散叶,热度持续上涨。

OpenAI的前科学家AndrewKarpathy曾说,普通人、创业者和极客在构建AI智能体方面,相比OpenAI这样的公司甚至更有优势。

一个以AI智能体工作流为依托的新产品经理时代要来了吗?不一定,因为AI可能比人类更会搭建智能体。

自动化的循环逻辑

8月19日,不列颠哥伦比亚大学的三位研究人员发表了一篇名叫《自动化设计智能体系统》的论文。在这篇论文里,他设计了一个让AI自己发现并搭建智能体,还能自己迭代的系统。

回想一下OpenAI对智能体的经典定义,智能体就是一个能够存储知识,能够进行计划,并且应用工具的产品。

而我们在用工作流构建智能体的时候,也是利用已有的知识(对智能体形式的知识),自己进行计划(搭建流程)并利用工具(接入API)最终去执行产出,并没有超越智能体自己的能力范围。

那为什么不搭建一个能自动发现和设计智能体的智能体呢?

论文作者就按照这个思路,把设计者称为元智能体,他让它去设计新的智能体。把设计好的智能体加到数据库里作为资料,不停迭代出新的、更强版本的智能体。

这整一套方法,他们称之为ADAS(AutomatedDesignof智能体icSystems)。

那么,这一系统具体如何落地呢?

让链条转起来

ADAS系统中生成新智能体的过程可以被分为三个部分:

第一部分建立搜索空间,可以理解为通过一些基础工具和规则,它可以设计出潜在的新智能体。

第二部分是运行搜索算法,它规定了元智能体怎么利用搜索空间,取用其中的元素去具体搭建新的智能体。

最后一部分是运行评估函数,它会根据性能等目标对搭建出来的智能体进行评估。

研究人员在论文中分步解释了如何构建以上三个核心部分。

首先得确定建构搜索空间的基础元素,研究人员认为最好的方法是代码。

这是因为代码具有图灵完备性,能表达所有可能性。所以,理论上元智能体能够发现任何可能的构建模块(如提示、工具使用、控制流程)以及以任何方式组合这些构建模块的智能体系统。

采用代码去构建搜索空间,也意味着ADAS生成的智能体可以直接运行,用来纠错、跑分,无需人工再干预。

定义好了搜索空间,研究人员就开始设计搜索算法,即让元智能体去探索可能去完成任务的方法。这一过程基本上都是依靠提示词工程完成的。

首先是先给它一系列系统提示词。

然后,把基础Prompt提到的资料给到元智能体,包括

1.任务的基本描述。

2.最基本的框架代码,比如格式化提示、封装等操作名称,还有调用其他基础模型(FM)、API的能力。

(图注:一部分框架代码)

3.任务输入输出的格式和范例。

4.原来迭代中生成的一些智能体形成的范例库,包括其基线测试结果。

(图注:一个智能体库里的范例)

根据这些基础提示,ADAS就可以开始运作,生成一个去解决特定问题的智能体。

在这个过程中,元智能体会进行两轮反思保证生成的智能体具有新颖性和正确性。它会检查新生成的代码框架是否有错误,相对于智能体范例库里的过往结果是否有足够的创新。

元智能体还需要基于其对实用性能能力的"理解"对生成的智能体进行初步评估,判断它是不是比之前的智能体性能更好。

当这些条件中有一些不满足时,元智能体就得对生成的智能体或者修改或者干脆回炉重造。

(图注:第一轮反思的Prompt)

两轮反思和修改过后,元智能体会把觉得又新又好的新生成的智能体送给第三步的评估系统。

评估系统会根据基线测试对这个智能体的能力打一个客观分数,然后把它返回给到智能体范例库。

元智能体会再根据之前的评分结果和范例库里的过往范例,继续进行下一次迭代优化,以达到更高的任务性能分数。

一整条全自动化的链条就在这一过程中诞生了。而要生成一个效果绝佳的智能体,可能需要进行两位数以上次数的迭代。

超越手搓智能体

通过ADAS方法自动化流程得到的智能体能有多复杂?下图就是经过14次迭代后生成的一个智能体框架。

这个智能体的结构中有五个思维链给出初步答案。三个专家专家模型和一个模仿人类给出评价的模型对这些答案给出反馈后,这些答案会在优化流程阶段进行三次修改加强。最后经评估筛选出来三个结果,合并给出最终答案。

当然,这也是元智能体在设计中不断迭代的结果。

在迭代过程中,它生成智能体的能力也随着迭代次数快速增强。在第三次迭代的时候,元智能体就自己学会了多思维链策略,在第四次迭代的时候就学会了利用动态记忆去优化回答。到了第14次,它生成的智能体就达到了上面提到的复杂度。

最终,其最优解法的能力相较于最初的单纯大语言模型能提升超过250%,比起效果最好的手挫智能体COT-SC(多思维链回答)方法提升达到75%。

不光是ARC,ADAS模式下生成智能体在各个方面比起当前最强的所有基准手搓智能体,如COT、LLMDebate、Self-Refine都显著得更强大。而且越是处理复杂任务和跨领域应用时,ADAS生成的智能体越强。

虽然手搓智能体的时代即将结束了,但智能体范式的发现时代也许还将持续。在整体的测试中,ADAS并没有发现当下智能体建构范式以外的新的建构方法,更多的是重组和使用这些方法。

然而,对于一般的AIAgent开发者而言,这已经足够替代他们的工作了。

不过ADAS的流行可能还需要迈过一个坎,那就是成本问题。

据研究人员透露,在ARC上进行一次搜索和评估的OpenAIAPI成本约为500美元,而在推理和问题解决领域内的一次运行成本大约为300美元。也就是每次迭代大概需要20美元。对比如此高昂的成本,现阶段人力仍然有一定优势。

但研究人员也表示,因为研究得早,他们用的是“gpt-3.5-turbo-0125”模型。而最新的GPT-4模型“gpt-4o-mini”价格只有不到“gpt-3.5-turbo-0125”的三分之一,且性能更佳。而且从实验看,以GPT3.5能力迭代出来的智能体在一定数量的迭代后就进入性能瓶颈了,十四次后的迭代都是浪费。因此,拥有更好评估和资源管理的设计,也能大幅降低成本。

显然,人力的价格优势也维持不了多久了。

这一自动化的技术为何如此重要?

在移动互联网时代,面向各种赛道的各种App百花齐放,共同堆叠出了科技繁荣时代。但因为当时的新工具需要学习,移动App的开发也经历了较长的渗透阶段,最终才容纳进了足够的开发者。

在更早的时代,这个速度更慢。按照GeoffreyMoore在90年根据个人电脑的经验提出的"跨越鸿沟"理论,在技术出现初期几年,只有大概13.5%的erarlyadopter会用到这一技术,这还不是开发,而是使用。

所以开发者的短缺,可能是技术推广的一个重要瓶颈。

当然,智能体搭建的开发渗透速度可能要快很多。因为它比起过往的软件开发要简单得多。比如前一阵火爆的Wordware,能让一般用户用自然语言就能完成智能体的建构,更降低了门槛。

但思维链、多步循环等设计仍然非常复杂,过程中需要用到的工具也越来越多。因此,能够真正投身于智能体开发并且用好这个工具的人并不多。

扎克伯格曾在和黄仁勋的对谈中称,就算大模型技术不再发展了,光是吃透智能体的潜力就得花五年。

因此,相比于技术,开发者可能更是智能体还没爆发的核心瓶颈。现在能做这事的人还是太少。

但是,Agent却很多。

如果这一自动生成调优Agent的技术被更多商业公司采纳优化,早期技术人员的瓶颈自然不复存在了。智能体对各个领域的覆盖能力和能力深度的探索速度都会大幅提高。

也许就在明年,人类史上的第一个KillerAIApp,作者就是个AI。

THE END
1.随着科技的不断发展和普及,各种应用程序和小程序开始出现在人们我们需要明确的是,“AI算命”并不是真正的算命师。尽管现代技术的发展让算法可以模拟出类似人的智慧和经验,但这并不意味着它可以代替传统算命师的作用。准确度和科学性都是判断其价值的重要标准。 如果我们将它视为一种新型的智能咨询工具,那么它确实可以提供一些有价值的信息。通过分析用户的个人数据,AI算命能够帮助https://imgc.cn/xiaochengxu/1877.html
2.揭秘AI算命:人工智能算命能否洞悉命运?ai人工智能算命AI算命,即是利用人工智能技术来进行算命的一种现代科技产品。它通常基于大数据分析、机器学习、自然语言处理等技术,分析用户提供的数据,如生辰八字、姓名等,来预测个人运势、事业发展、人际关系等方面。 首先,我们需要明确算命在传统文化中的地位。在中国传统文化中,算命被看作是一种预测未来的方式,它包括但不限于占星https://blog.csdn.net/m0_68282957/article/details/142460380
3.人工智能算命机器人人工智能算命机器人 导读:人工智能算命机器人是一种结合了人工智能技术和占卜术的创新产品。该机器人使用先进的算法和大数据分析能力,能够通过分析用户的个人信息和生辰八字,预测未来的运势和命运走势。这一 本文目录一览 1、AI算命软件:改变千年传统的命运指引http://chatgpt.kuyin.cn/article/3744384.html
4.人工智能可以算命吗?AIjust机器人,帮我算个命呗! 未来,这样的场景会不会出现? 《周易》博大精深,有人说周易算命也准得惊人。 有的人穷极一生研究周易也未得精髓,因为太复杂。 那么,人工智能来“学习”周易,可以给人算命吗? --- 首先普及一下,周易属于哲学范畴,是一套对人生吉凶悔吝的看法。 至于周易算命的https://www.jianshu.com/p/fe0cd38685fe
5.人工智能算命人工智能算命 大家好感谢邀请今来为大家一下ai免费拍照看手相算命的问题以及和免费AI拍照看手相算命的一些困惑大家要是还不太明白的话也没有关系因为接下来将为大家希望可以帮。 人脑算命与电脑算命谁更准确原创作者:江南易林 Email:JNEasily@hotmail.com日期:2007年3月20日江南易林博客: http://easylin.tianyabloghttps://www.16757.com/ysh/suanming/2721.html
6.台湾有AI:从智慧医疗到智能算命,台湾的AI特色道路创事记新浪科技台湾有AI:从智慧医疗到智能算命,台湾的AI特色道路 欢迎关注“创事记”的微信订阅号:sinachuangshiji 文/脑极体 提起台湾的人工智能,似乎不管在亚洲还是世界都找不到一席之地。我们对台湾人工智能的印象大概都来自于那篇关于“大陆在办大数据会,台湾在开卤肉饭节”的新闻,以及李开复在台湾大学演讲时讲到的,台湾做https://tech.sina.com.cn/csj/2018-03-29/doc-ifyssmmc0503579.shtml
7.紫微算命AI多算算导读:一、紫微算命AI的定义与特点紫微算命AI是一种基于人工智能技术的算命系统。它利用大数据和机器学习算法分析用户的生辰八字等个人信息,预测出用户的命运与运势。相比传统的算命方式, 本文目录一览 1、心灵窗户AI算法 2、AI算法仿真平台:开启智能时代的窗口 http://www.95129512.com/article/3756908.html
8.大数据求签,人工智能算命,技术革新下传统行业还有灵魂吗从技术上来说,AI算命和大数据求签这类应用,能够比传统测算方法更加准确。在过去两年,AI算命是现象级、刷屏级的热门产品,有人评价它是“古典周易和人工智能的完美融合”。 但接触过的人都知道,算出的结果都是大同小异的模糊化描述,适用于每个人。并且早已有人深入调查过这个产业,从AI算命软件卖家口中得知,“报告结https://www.51cto.com/article/716209.html
9.AI人工智能看面相可信吗?AI测面相算命分析赚钱引流系统无限AI智能面相帮人算命可信吗? AI是一种人工智能,是一种科学。 而面相就是人脸所表现出的景象,它是一种透过观看一个人面部特征的方式来论命的学科。 最早可追溯到古希腊时期1966年。 美国密歇根大学的心理学家,就对面相展开了相关的研究。 研究表明,面相是有科学依据的。 https://www.chenweiliang.com/cwl-1046.html
10.苹果开源自动修图神器MGIE;微软联合Semafor推出AI生成新闻丨AI11、智谱AI推出智能体创作者激励计划 1、天工2.0 MoE大模型发布 2月5日,昆仑万维正式发布新版MoE大语言模型天工2.0与新版天工AI智能助手APP,这是国内首个搭载MoE(专家混合模型)架构并面向全体C端用户免费开放的千亿级参数大语言模型AI应用。用户即日起可在各手机应用市场下载天工AI智能助手APP进行体验。 https://zhidx.com/p/413513.html
11.算命测试八字匹配ai人工智能八字算命算命测试八字匹配 ai人工智能八字算命,八字算命作为中国传统的一种命理学方法,通过分析个人出生年、月、日、时的天干地支组合,揭示一个人的性格特征、命运走势及适合的配偶类型。在现代社会,尽管科技日新月异,但八字算命依然深受一部分人的信仰与追求。特别是在婚姻选择https://www.sxsjjy.com/view/278659
12.AI面相手相功能模块+无限多开版+算命大师+人工智能+面部风水+源码名称:【AI面相手相】功能模块+无限多开版+算命大师+人工智能+面部风水+生命线解读+一生运势源码大小:12.7MB开发语言:PHP+Mysql操作系统:Windows,Linux源码简介与安装说明: 版本号:3.2.0 1.AI面相手相功能,二合一,手相可以单独开关 2.AI面相和手相功能全兼容,包含不限于分销设置,其他基础设置 3.关联公众号,http://www.ahf168.com/3530.html