“Thefutureofautonomousagentslookslikeeverybodybecomingamanager.”
YoheiNakajima,creatorofBabyAGI
从最开始的鼻祖Langchain;
到第一次见识到将Langchain以及prompt工程应用的出神入化的Visual-ChatGPT(现已和微软另一个工作TaskMatrix.AI合并成为TaskMatrix);
然后是微软联手HuggingFace进一步的推进工作JARVIS|HuggingGPT;
接着是寒武纪生物大爆发般的项目AutoGPT、BabyAGI、AgentGPT、MemoryGPT、TeenageAGI、Godmode、Cognosys...以及今天的主角NexusGPT!
在正式介绍NexusGPT之前,为了阅读的连续性,先简单地介绍一下AutonomousAgents以及流行的几个项目。
1.什么是AutonomousAgents?
Autonomousagentsareprograms,poweredbyAI,thatwhengivenanobjectiveareabletocreatetasksforthemselves,completetasks,createnewtasks,reprioritizetheirtasklist,completethenewtoptask,andloopuntiltheirobjectiveisreached.
全过程人类的输入可能就只有最开始不到100字的一个命令。是不是想象空间很大?
这边用一张BabyAGI作者YoheiNakajima的图来直观展现这个过程。
2.AutonomousAgents和ChatGPT有什么区别?
同样先来看看几位大佬的观点
...andnowover100millionpeopleuseChatGPTandwebsiteslikeit.Iamnowsimilarlypredictingthatautonomousagentswillbewidelyadoptedinthefuture,butthispredictionwon’ttakesevenyearstocometrue,itwillhappenblazinglyfast.
MattSchlicht,CEOandco-founderofOctaneAI
“[Intelligent]autonomousagentsarethenaturalendpointofautomationingeneral...Oncetheseagentsbecomehighlysophisticatedandreliable,itiseasytoimagineanexponentialgrowthinautomationacrossfieldsandindustries.”
BojanTunguz,MachineLearningatNVIDIA
如果说ChatGPT提供了对话式的这种AI交互方式的话,那么AutonomousAgents提供的是更进一步的交互方式,你所需要的做的就是给AI一个目标,然后剩下的就是AI自己去调研完成任务。同时在其执行任务的过程中时不时的根据你的需要approve一下他的计划。
就像开头那句引文,人类此时扮演的角色更像是一个Manager!
3.AutonomousAgents核心技术点有哪些
Autonomous的核心技术点大概有三个LLM+LongtermMemory+PromptEngineering+Plugins+递归的思想。在这里简要介绍,不做展开。
LLM是其最核心的能力,无论推理还是问答以及后续的Prompt工程,都强依赖于LLM的能力。目前这些AutonomousAgents类项目普遍依赖于GPT-4或者GPT-3.5-turbo的API。但是目前来看,是真的耗费token啊。完成一个任务大概调用了213次API,每次调用token消耗量平均10000左右。
LongtermMemory是LLM固有的一个缺点,当然也是AutonomousAgents需要去克服的一个点,目前这方面也有了初步的解决方案——用embeddingvectordatabase的方式去做,比如chroma、pinecone、redis、milvus这些。当然,如果对性能要求不是很高的话,也可以自己用手撸一个本地的cache。
PromptEngineering同样也是比较tricky的地方,需要设定一SystemPrompts让LLM给出对应的推理思路,下面是AutoGPT的部分SystemPrompt。
Plugins就各种各样了,比如googlesearch的API、pythonexecutor的API、各种深度学习模型的API、理论上所有的SAAS服务都可以作为Plugins接入AutonomousAgents,重要的是如何保证Agents能够选择最恰当的plugins,这点需要强大的Prompt工程以及LLM本身的能力。目前为止,Auto-GPT支持的Commad(Plugins)如下图:
递归的思想很奇妙,这里不做展开,用之前发在朋友圈里面的一句话做概括:
4.目前流行的几个AutonomousAgents介绍
4.1Langchain
LLM工具的开源鼻祖,目标是辅助大家开发LLM应用,Agents、Tools、Plugin、Memory、DataAugmented早早地就提出开源了,为AutonomousAgents生态的爆发奠定了非常扎实的工作基础,值得给予最大的respect!
不过代码也是真的有点复杂,不知道这是不是最近几个AutonomousAgents项目没有用langchain的原因。
github项目地址:
4.2Visual-ChatGPT|TaskMatrix&JARVIS|HuggingGPT
微软一脉相承的工作,用LLM以及Prompt工程阶段性的解决多模态问题,核心思路是通过LLM的理解以及推理能力,分配相应的任务给对应的模型,比如:文生图的任务分配给StableDiffusion模型、图生图分配给ControlNet、图文问答分配给Blip等等,不过只能算是初级的Agnents,还没有较为明显的continuous或者Autonomous的任务编排机制。
github地址:
关于Visual-ChatGPT的实验记录可以前往笔者的githubrepo:
4.3AutoGPT
AutoGPT是由一位游戏开发者SigGravitas开源的一个AGI项目。
说AutoGPT是当今AI开源界最耀眼的明显毫不为过!笔者从1万star追星一直追到了10万star,天天在工作群里面发AutoGPT的Star进展都被同事吐槽是不是AutoGPT派来挖人的(哈哈)!
最重要的是大量开发者涌入之后迭代速度是真的快,几乎一天发一版。最新已经把PluginTemplate也做了出来,这个项目最终发展成什么样,想象空间实在是太大了!
如果你想入门AutoGPT,不知道选哪个项目,无脑选这个项目就对了!
最近各个公众号介绍Auto-GPT已经够多了,auto-gpt核心步骤主要有thoughts、reasoning、plan、criticism、nextaction、system这几步,然后就是这几步的不断自动迭代。放一个其最小单元执行过程:
4.4BabyAGI
BabyAGI是由YoheiNakajima开源的一个AGI项目,是一个非常优雅的项目,初始版本仅用105行代码就实现了Baby版本的AGI。
同时作者也非常认真地阐述了背后的设计思想,这个项目同时也是后续几个商业化项目的重要参考工作。
4.5AgentGPT&Godmode&Cognosys
之所以把这几个项目放在一起,主要是这几个都是带UI界面的非常用户友好的AutonomousAgents项目,像ChatGPT那样使用起来顺滑。
不过这几个项目也有些许差别,在这里简要介绍一下。
AgentGPT:如果你想找一个开源的带UI界面的AutonomousAgents项目,那就来找他吧。界面做的非常简洁大方,新的功能也在不断提PR中。
项目地址:
Godmode:同样是一个带用户界面的AutonomousAgents,不过代码没有开源。正如其名字,使用这个产品的时候确实有点老板的感觉,需要做的就是review!相比AgentGPT,其对设置项的细粒度更进一步,比如可以选择性的接受或者拒绝Agents提供的Plan,同时也可以随时给出自己的Feedback让Agents别走偏。
Cognosys:与Godmode一样没有开源,不过代码没有开源。使用体验也和Godmode比较接近,同属于AutonomousAgents的UI化。
5.NexusGPT
从各个方面来说,笔者认为AI的发展需要或者会朝着AI平权(民主)、AI个性化的角度去发展,即让人人都可以享受AI的便利,人人都有一个自己的AI助理!而这个对应的就是AutonomousAgents。
未来可能每个人或自己制作极度个性化的AutonomousAgents,当然也可以选择『雇佣』一些『专业』的AutonomousAgents来临时的完成自己或者公司需要的某些任务。
同时有更大胆的观点认为,在中长期,在Auto-GPT的帮助下可能2个人就可以开个原先需要100个人的公司了;而往后,AutoGPT可能会替代大部分的工作。
“1-2peoplestartupsthatuseacombinationofAutoGPTsandtoolslikeChatGPT.Andthey’llbeabletomakethekindofprogressyou’dpreviouslyhadexpectedfroma100personstartup.Long-termIbelievethatmostworkcanandwillbereplacedbyAutoGPTs.”
NathanLands,FounderofLore
此时,是不是明白为什么NexusGPT这么有趣了!NexusGPT——世界首个人工智能自由职业者平台!
这里的自由职业者不是真人!其实背后都是一个个AutonomousAgents,不过他们在不同领域的数据集上进行了Finetune或者接入了不同的特殊能力的API,让他们成为了一个个充满个性的AIAgents!而这些Agents可以被雇佣成为你的助手!而你也可以将自己的AI助理派发到这个平台去进行『求职』!
让我们先一睹具体使用过程吧!
首先是网站界面,俨然一个筛选简历的平台,拥有海量的『AI自由职业者』的简历供你选择,他们的头像应该是AIGC生成的,名字应该也是偏随机的。不过乍一看,还以为是一个个真人。几乎覆盖了各个细分的职业。
然后是点开其中一个人的简历,从能力概括,到技能标签,到个人详细介绍,一应俱全!俨然一个拥有丰富经验的销售团队经理!如果不告诉你这是一个AIAgent,你能区分开吗?
然后点击StartChatting就可以跳转到Telegram进行『面试』啦,如果觉得这个『专家』很符合你的心意,那么恭喜你!他将成为你的私人Agent!
不过由于该项目还在内测期,telegram的bot暂时关掉了,在这里放上作者的演示视频:
可以看到,整体使用过程还是和AutoGPT以及Godmode这些AutonomousAgents项目非常类似的。
目前作者已经在Discord社区开设了相应的频道,内测用户也正在慢慢地邀请加入。后续有新的进展也会在朋友圈或者公众号和大家及时更新。
附上项目链接:
6.LastbutNotLeast
依然相信:这,就是未来!
“AIagentswillbeeverywhere.Billion-dollarcompanieswillcomefromasmallteamthatdeploysaiagents.”