【2023-2-19】斯坦福最新ChatGPT:提示学习,指导微调和RLHF
人工智能三次震惊世界。1997年,2016年,2023年。而这三次都由美国主导,而且都和美国最大的对手苏联(俄罗斯)有关。
ChatGPT持续创造历史记录:
SensorTower的数据
成为史上用户增长速度最快的消费级应用程序
ChatGPT是采用WEB浏览器上的对话形式交互,可以满足人类对话的基本功能,能够回答后续问题、承认错误、质疑不正确的请求
NLP/NLU领域已知局限
对于人类或AI,通常需接受多年的训练才能正常对话。NLP类模型不仅要理解单词含义,还要理解如何造句和给出上下文有意义的回答,甚至使用合适的俚语和专业词汇。
ChatGPT能做的49件事情:一个ChatGPT解决了NLP很多任务
不直接具备网络搜索功能,因此不连接搜索引擎的版本只能基于2021年7月所拥有的数据集进行回答。
虽然知识有限,ChatGPT还是能回答脑洞大开的许多奇葩问题。
OpenAI上周正式推出ChatGPT,这是一种基于对话的人工智能聊天机器人模型,它能够理解自然语言并以自然语言的方式做出回应。
ChatGPT基于GPT-3.5模型微调而成,以语言服务模型InstructGPT为基础,通过人类回馈增强学习训练模型RLHF,不过数据设置略有不同。它以对话方式进行交互,既能够做到回答问题,也能承认错误、质疑不正确的前提以及拒绝不恰当的请求,能以更贴近一般人的对话方式与使用者互动
不同使用ChatGPT的国家地区
【2024-4-15】人民大学
ChatGPT是一个由OpenAI基于LargeLanguageModel(LLM)开发的智能问答模型,所使用的LLM为OpenAI2020年发布的GPT-3,通过人工反馈强化学习(ReinforcementLearningfromHumanFeedback,即RLHF)训练,大幅提升了模型的问题回答能力。
2022年11月30日,OpenAI推出ChatGPT模型,并提供试用,全网火爆。
ChatGPT是基于GPT-3.5(GenerativePre-trainedTransformer3.5)架构开发的对话AI模型,是InstructGPT的兄弟模型。
【2023-2-14】心智理论,就是理解他人或自己心理状态的能力,包括同理心、情绪、意图等。
GPT演变
ChatGPT的本质:贝叶斯定理的“逆概率”
其中:
ChatGPT本身还是基于GPT-3.5。官方介绍里面讲:“ChatGPTisasiblingmodeltoInstructGPT”
ChatGPT的技术特点包括:
更重要的是采用了先进的、注重道德水平的训练方式,ChatGPT具有其他聊天机器人不具备或不足的能力点:
ChatGPT会采用一些预先设计好的句式,结合用户的具体请求来进行拒绝和话题转移。
整体技术路线上,ChatGPT在效果强大的GPT3.5大规模语言模型(LLM,LargeLanguageModel)基础上,引入“人工标注数据+强化学习”(RLHF,ReinforcementLearningfromHumanFeedback,这里的人工反馈其实就是人工标注数据)来不断Fine-tune预训练语言模型,主要目的
在“人工标注数据+强化学习”框架下,具体而言,ChatGPT的训练过程分为以下三个阶段:
注:
不断重复第二和第三阶段,很明显,每一轮迭代都使得LLM模型能力越来越强。因为第二阶段通过人工标注数据来增强RM模型的能力,而第三阶段,经过增强的RM模型对新prompt产生的回答打分会更准,并利用强化学习来鼓励LLM模型学习新的高质量内容,这起到了类似利用伪标签扩充高质量训练数据的作用,于是LLM模型进一步得到增强。显然,第二阶段和第三阶段有相互促进的作用,这是为何不断迭代会有持续增强效果的原因。
所以
再过几天,11月6日,OpenAI就要办开发者大会了,据外媒说OpenAI最近丢了不少商业客户,甚至和微软也貌合神离的,OpenAI说要降低费用,让开发者能有更多机会,应该会憋点大招出来
ChatGPT的训练流程主要参考自InstructGPT的论文,ChatGPT是改进的InstructGPT,改进点主要在收集标注数据方法上有些区别,在其它方面,包括在模型结构和训练流程等方面基本遵循instructGPT。
图灵谜雾:ChatGPT最大的神秘之处
技术员不会相信机器产生智慧,因为人工智能本质就是解答数学概率而已。但GPT技术却带来了一个神秘的“沙盒”,我将它叫做“图灵谜雾”。
举例
模型并没有改变,只是再次听取了人类提示,就开始自我进化。这是个什么原理?不知道。
机器会产生智慧吗?
伟大的AI始祖图灵,为此提出了一个思想实验:“图灵测试(TheTuringtest)”。
OpenAI推出的ChatGPT对话模型掀起了新的AI热潮,它面对多种多样的问题对答如流,似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型(LargeLanguageModel,LLM)生成领域的新训练范式:RLHF(ReinforcementLearningfromHumanFeedback),即以强化学习方式依据人类反馈优化语言模型。
资料
ChatGPT并非首创,事实上很多组织在OpenAI之前就发布了自己的语言模型对话代理(dialogagents),包括:
下表根据是否能公开访问、训练数据、模型架构和评估方向的详细信息,对这些AI聊天机器人进行了比较。
尽管在训练数据、模型和微调方面存在许多差异,但也存在一些共性。上述所有聊天机器人的一个共同目标是「指令依从(instructionfollowing)」,即遵循用户指定的指令。
观点1:
观点2:
基于思维链(Chain-of-thought)技术下的prompt
OpenAI的GPT-3虽然不再微调模型(pre-training+prompt),但Google依然坚持预训练+微调的模式
2021年9月,谷歌研究者们在论文《FinetunedLanguageModelsAreZero-ShotLearners》提出了基于InstructionFine-Tuning(指令微调,简称IFT)的FLAN大模型(参数规模为137B),极大地提升了大语言模型的理解能力与多任务能力,且其在评估的25个数据集中有20个数据集的零样本学习能力超过175B版本的GPT-3(毕竟指令微调的目标之一即是致力于improvingzero-shotgeneralizationtotasksthatwerenotseenintraining),最终达到的效果就是:遵循人类指令,举一反三地完成任务
IFT数据通常是由人工手写指令和语言模型引导的指令实例的集合
基础模型的语言建模目标不足以让模型学会以有用的方式遵循用户的指令。
模型创建者使用「指令微调(InstructionFine-Tuning,IFT)」方法来达到该目的
这些指令示范由三个主要部分组成——指令、输入和输出。
IFT的训练数据通常是人工编写的指令及用语言模型自举(bootstrap)生成的实例的集合。
然而经过指令微调的LM并不总是生成有帮助的和安全的响应。包括
为了减轻这种行为,模型开发人员使用有监督微调(SupervisedFine-tuning,SFT),在高质量的人类标注数据上微调基础语言模型,以提高有用性和无害性。例如,请参阅下面的表格(摘自Sparrow论文的附录F)。
SFT和IFT联系非常紧密。指令微调可以看作是有监督微调的一个子集。
谷歌的LaMDA也根据一组规则(论文附录A)在带有安全标注的对话数据集上进行微调。
AIdea是一款集成了主流大语言模型以及绘图模型的APP,采用Flutter开发,代码完全开源,支持以下功能:
IOS国区目前不可用,除此之外所有区域都可以下载。
FreeGPT35
ChatGPT体验方式
聚合对比
All-In-One免费版只支持两种大模型并行展示,付费版支持4种
【2023-5-9】实测总结
安装OpenAI模块
pipinstallOpenAI#安装工具包多种调用方法
ChatGPT插件集成到其它软件上,用于辅助问答
前置条件
部署方法
配置文件说明
看到一个二维码,扫码即可
实现了以下功能
机器人有两种实现方式
支持功能
常见问题
ChatGPT-dingtalk本项目可以将GPT机器人集成到钉钉群聊中
【2023-3-15】哈工大内部资料
ChatGPT能力全面、回答准确、生成流畅、功能丰富。三个角度总结
【2023-2-10】复旦大学管理学院信息管理教授张诚:
张俊林:ChatGPT最大贡献
GTP/BERT这样的大模型出现后,可能导致一部分中间任务消亡。
这点从统计机器翻译到神经网络机器翻译也有类似发展过程。
作为突围型产品,ChatGPT确实表现优秀。然而在目前微调小模型已经达到较好效果的前提下,同时考虑到ChatGPT的训练和部署困难程度,ChatGPT可能在以下任务场景下不太适用或者相比于目前的微调小模型范式性价比较低:
补充:
Limitations
局限和弱点:不同渠道的分析:
只要用户输入问题,ChatGPT就能给予回答,是否意味着我们不用再拿关键词去喂Google或百度,就能立即获得想要的答案呢?
尽管ChatGPT表现出出色的上下文对话能力甚至编程能力,完成了大众对人机对话机器人(ChatBot)从“人工智障”到“有趣”的印象改观,但ChatGPT技术仍然有一些局限性,还再不断进步。
ChatGPT虽然对话能力强,但是在数理计算对话中容易出现一本正经胡说八道的情况。
计算机学家StephenWolfram为这一问题提出了解决方案。StephenWolfram创造了的Wolfram语言和计算知识搜索引擎WolframAlpha,其后台通过Mathematica实现。
在这一结合体系中,ChatGPT可以像人类使用WolframAlpha一样,与WolframAlpha“对话”,WolframAlpha则会用其符号翻译能力将从ChatGPT获得的自然语言表达“翻译”为对应的符号化计算语言。
ChatGPT不必生成这样的代码,只需生成常规自然语言,然后使用WolframAlpha翻译成精确的WolframLanguage,再由底层的Mathematica进行计算。
Claude和ChatGPT都依赖于强化学习(RL)来训练偏好(preference)模型。
CAI用人工智能反馈来代替人类对表达无害性的偏好,即RLAIF,人工智能根据一套constitution原则来评价回复内容。
虽然ChatGPT很强大,但其模型大小和使用成本也让很多人望而却步。有三类模型压缩(modelcompression)可以降低模型的大小和成本。
疑问:如何攻破ChatGPT的道德原则?
为了解决这个问题,OpenAI也在ChatGPT的用户界面里加入了审核举报的功能,用户如果发现不健康不安全的内容,可以直接一键举报!
OpenAI还为此举办了一个反馈竞赛,任何有价值的举报都有机会赢取OpenAIAPI积分(价值500美元)。
(1)小公司根本做不了
(2)很多华人,都觉得微软低效是因为印度人太多,尤其是因为印度人做了CEO。但是这种言论是错误的。
(3)ChatGPT会面临Google的竞争。Google的搜索引擎仍然是最好用的
很多人还在想第一层第二层,人家Satva已经想到了第五层了。现在微软就是开启了大模型军备竞赛,想要卷死Google。当然这并不是”内卷”,毕竟用户的使用体验提升了。
随着ChatGPT的火热,国内互联网企业纷纷入局。
对话全文如下:
这不比当代打工人还像打工人了。
ChatGPT
所以,当一个工具看待,思考的依据。ChatGPT不是强人工智能,无法实时猜想人类的思维到底是什么。所以,ChatGPT生成答案的水平与人类提出的问题一样–垃圾提问,垃圾输出。
许多用户都展示了与ChatGPT对话的有趣内容,它宛如化身为地球“最强懂哥”,各种问题轻松应答,让它解答防疫政策与经济发展的关系,给出的答案不仅条理清晰,还会引用例子支撑观点。让它帮忙写程序,不仅提供了可用的代码,更是把实现思路也一并写了出来。
ChatGPT影响和启示:
随着算法技术和算力技术的不断进步,ChatGPT也会进一步走向更先进功能更强的版本,在越来越多的领域进行应用,为人类生成更多更美好的对话和内容。
【2023-3-13】Neuro-SymbolicReasoning:ChatGPT出现后,语言理解与生成质量较之前提升明显,但知识性、逻辑性、可控性、可解释性方面还存在一些问题,也是一些推理问题。
如何让AI更聪明、更像人,本质上是一个教育问题。“全才”大模型vs“专家”小模型
大模型时代的到来,并不意味着高精尖的中小模型将被淘汰。
场景和数据是国内小模型的机会
模型训练的本质:量变引起质变。暴力出奇迹的基础在于海量的数据,不少曾经立下“Allin大模型”flag的基金,经历了近3个月的火热后,选择自行降温。
但聚焦到特定的应用场景,最终发挥作用的往往不是大模型,而是轻量的中小模型。
国内企业现阶段可以奉行的是“拿来主义”,基于海外的开源大模型,将中小模型打磨至顶尖水平。大模型的4个要素,除了算力是长跑,剩下3个都是能够把握在手里的
目睹OpenAI踏出一条明路后,也有更多人愿意不计较太多成本,涌向“无人区”。
总结
2020年发布的《中国人工智能发展报告2020》显示,过去十年全球人工智能专利申请量超52万件,中国约有39万件,位居世界第一。
有专业能力,有人才储备,有论文数量,有专利优势,还有数据支撑。看似天时地利人和,但为什么中国就没能诞生ChatGPT?
有人总结以下原因:
最核心的原因,是缺乏理想主义,太功利。总以人类理想之高远,满足物质欲求之低劣?
智能体(可以是生物或机械),通过与环境产生交互后,通过自身的学习,产生对于客观世界的理解和改造能力。
把AI想象成一个小孩
从谷歌的围棋,波士顿动力的机器狗,到现在的ChatGPT,都有3个共性;
再看我国:
CHATGPT爆火,大家并不关心中国现有的技术到什么层面,中美最大的差异从哪来……他们的问题依然是:AI怎么赚钱,有哪些业务机会。
现在中国AI从业者面对老板/投资人的处境,就像一个想从村里走出去求学的年轻,他每经过一个路口,就有一群大爷大妈,怼着他的鼻子问“咦~读博士花那么多钱有啥用唻~能挣钱不~~还不如牛二娃去厂里打螺丝~3年就给起了新房子~”。
为什么欧美AI比我们强?
替代模型
ChatGPT能否取代Google、百度等传统搜索引擎?
目前形态的ChatGPT还不能取代搜索引擎呢?主要有三点原因:
一夜之间,整个NLP圈发生了巨大的变化
大家慢慢开始相信“NLPissolved!”
然而,从最近依然活跃的NLP学术圈和层出不穷的优秀工作来看,事实并非如此,甚至可以说:“NLPjustgotreal!”
北航、Mila、香港科技大学、苏黎世联邦理工学院(ETH)、滑铁卢大学、达特茅斯学院、谢菲尔德大学、中科院等多家机构,经过系统、全面的调研之后,打磨出一篇110页的论文,系统阐述了后ChatGPT时代的技术链:交互。
与传统的“人在环路(HITL)”、“写作助手”等类型的交互不同,本文所讨论的交互有着更高、更全面的视角:
NLP界新问题:
论文首次定义并系统解构了“交互式NLP”,并主要基于交互对象的维度,尽可能全面地讨论了各种技术方案的优劣以及应用上的考虑
论文InteractionInterface(交互接口)章节,系统地讨论了不同交互语言、交互媒介的用法和优劣,包括:
交互方法主要包括:
因此,在交互的框架下,语言模型不再是语言模型本身,而是一个可以“看”(observe)、可以“动作”(act)、可以“获取反馈”(feedback)的基于语言的智能体
与某个对象进行交互,称之为“XXX-in-the-loop”,表示这个对象参与了语言模型训练或者推理的过程,并且是以一种级联、循环、反馈、或者迭代的形式参与其中的。
交互式NLP的主要应用
【2023-3-22】可行的ChatGPT技术变革方向
OpenAI的CEOSamAltman和AI开发平台HumanLoop的创始人RazaHabib等20多位开发者开展了一次闭门讨论会,主要聊了OpenAI的使命、AI的影响以及一些在开发过程中的实际问题。
重点:
OpenAIAPI的暂定的短期路线图。
2023:
2024:
插件「没有PMF」,短期内应该不会出现在API中
【2024-12-30】Microsoftarxiv论文里竟然写了OpenAI闭源的大模型的具体参数
参数信息
用户可以自行关闭会话历史,不用于模型训练
ChatGPT推出APP,目前仅限ios系统,支持语音输入(使用whisper)
TheChatGPTappisfreetouseandsyncsyourhistoryacrossdevices.ItalsointegratesWhisper,ouropen-sourcespeech-recognitionsystem,enablingvoiceinput.
详见站内专题
2023年6月14日,OpenAI官网宣布“更新更可调的API模型、函数功能、更长的上下文和降价”,发布更高效更低成本的版本。
此外,OpenAI还推出了gpt4-16k平替版——gpt-3.5-turbo-16k,价格为每输入1000tokens0.003美元,相当于降价95%!
OpenAIChatGPTPlus用户默认由GPT-3.5升级为GPT-4
ChatGPT中推出新的语音和图像功能,允许用户进行语音对话或向ChatGPT展示正在谈论的内容,提供了一种新的、更直观的界面类型。
在接下来的两周内,OpenAI将向Plus和Enterprise用户推出ChatGPT中的语音和图像功能,语音功能将在iOS和Android上推出(可以在设置中选择加入),而图像功能将在所有平台上提供。
「谁拿到了2023年亚运会首枚金牌」
情况彻底改变:
以早期OpenAI的LLMAPI为代表,大部分LLM供应商的API都是无状态的(即Stateless)。很明显,这个方式必然有一些优势,具体来说有:
StatelessAPI是一个更接近于底层推理过程的抽象层,优先提供这个抽象层面几乎是最佳实践。
但这种方式也有一些缺点:
自然的方式还是提供针对多轮对话session的statefulAPI,并针对性的设计对于session的计费方式。
优化方案
StatefulAPI才是多模态的多轮对话下最自然的API风格。
甚至说大部分的2C产品的功能都可以通过这种Workspace、长期session、短期session的方式来提供。说基座LLM公司可以吃下很多上层应用,诚不欺我。
OpenAI将在11月6日的首次开发者大会上发布重要更新,让开发者能够更快捷和廉价地开发基于大模型的应用。
而此次更新最让人期待的部分是:
“OpenAI将推出StatefulAPI,理论上可将大模型应用的开销削减为原来的1/20。”
无状态→有状态
GPTAPI将从Stateless变为Stateful。
Altman表示,基于StatefulAPI,用户不用再
“Payforthesametokensfromthesameconversationhistoryagainandagain”。
StatefulAPI实现机制应类似于KVCache。在StatfulAPI的信息披露之后,X(Twitter)上就有开发者马上意识到StatefulAPI,类似于KVCache机制,将有可能指数级(O(N^2)=>O(N))降低大模型应用的开销。
KVCache旨在提升大模型的计算速度。
KVCache对计算速度提升明显
KV-Cache占用数据量为:
2x浮点数据类型字节数x模型层数x模型内部维数x序列长度
对于30B左右模型、1ktoken长度的请求,大概需要小几GB的数据量需要存储,数据量属于不大不小。
可以预期
OpenAI确实有能力将大模型应用的开销削减95%。但另一方面,StatefulAPI将显著减少OpenAI从开发者群体获得的收入,其“地板价”的动机又是什么呢?
OpenAI的动机是“KeepingDevelopersHappy”,事情真的是如此直白吗?
ThesereleasesaredesignedtoattractmoredeveloperstopaytoaccessOpenAI’smodeltobuildtheirownAIsoftwareforavarietyofuses,suchaswritingassistantsorcustomerservicebots.
OpenAI的既有GTM战略
OpenAI为ChatGPT付费用户推出新的测试功能“所有工具(AllTools)”,将之前相互独立各自分离的工具整合起来,由聊天机器人根据上下文自行判断使用什么工具。
GPT-4
本次更新还实现了自动组合使用工具的功能,使得ChatGPT能够协作完成一项任务。
例子:
“全部在一个对话中!”
这被认为是一次重大飞跃,也可能会使许多第三方插件变得过时。
AllTools展示了AIAgent未来的发展方向。
大模型只有在真正的应用层面走进千家万户才能展示其真正的价值,而AIAgent就是最好的应用形式。因此,AIAgent或将成为实现AGI(通用人工智能)必经之路。
ChatGPT逐渐从一个单纯的语言模型发展为一个拥有眼睛、耳朵和四肢的智能体,它能够感知世界、使用工具,并逐渐成长为一个超级自主的智能体。
OpenAI将继续加强和扩展这些功能,包括但不限于:
实现方法?
【2023-11-6】GPT-4AllTool的实现方法:
GPTBuilder和AssistantAPI是OpenAI杀手级更新,AIAgent愿景重要一步,不再满足于提供基础大模型,而是成为AI时代的AIOS平台
自定义GPT出来之前,曾经尝试过两种方法:
GPTBuilder不需要写代码
【2024-3-31】OpenAI公司最近推出了一项革命性的声音克隆技术——“VoiceEngine”
VoiceEngine通过文本输入和15秒的音频样本,便能生成与原始说话者声音极为相似、情感丰富且自然逼真的语音。
VoiceEngine是一个少样本语音合成模型:
【OpenAI:记忆功能向ChatGPTPlus用户全面开放】
4月30日电,OpenAI,忆功能向ChatGPTPlus用户全面开放。
使用记忆功能非常简便:
当前,欧洲市场和韩国市场还没有开放这项功能。预计下一步将向团队、企业、GPTs用户开放
技术方案
在GPT-4o之前
GPT-4o则是跨文本、视觉和音频端到端训练的新模型,这意味着所有输入和输出都由同一个神经网络处理。
一个成功的演示相当于1000篇论文
SamAltman逆言忠耳:
大概结构框架可能是这样
难点
GPT-4o有128K上文窗口,知识库截止2023年10月.
GPT-4oAPI
GPT-4ointheAPIsupportsunderstandingvideo(withoutaudio)viavisioncapabilities.Specifically,videosneedtobeconvertedtoframes(2-4framespersecond,eithersampleduniformlyorviaakeyframeselectionalgorithm)toinputintothemodel.CheckouttheIntroductionto.5ktolearnhowtousevisiontoinputvideocontentwithGPT-4otoday.GPT-4ointheAPIdoesnotyetsupportaudio.Wehopetobringthismodalitytoasetoftrustedtestersinthecomingweeks.GPT-4ointheAPIdoesnotyetsupportgeneratingimages.Forthat,westillrecommendtheDALL-E3API.WerecommendeveryoneusingGPT-4orGPT-4TurboevaluateswitchingtoGPT-4o!Togetstarted,checkoutourAPIdocumentation2.5kortryitoutinthePlayground1.2k(whichnowsupportsvisionandcomparingoutputacrossmodels!)
GPT-4omini具备文本、图像、音频、视频的多模态推理能力。
GPT-4omini在文本智能和多模态推理方面的学术基准测试中超越了GPT-3.5Turbo和其他小模型,并且支持的语言范围与GPT-4o相同。
此外,GPT-3.5Turbo相比,其长上下文性能也有所提高。
与GPT-4相比,GPT-4omini在聊天偏好上表现优于GPT-4,并在大规模多任务语言理解(MMLU)测试中获得了82%的得分
Mini这条路上,欧洲与中国的大模型团队已经率先研究了大半年。
9月13日午夜,OpenAI正式公开一系列全新AI大模型,专门解决难题。
新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。
第一款模型,而且还只是预览版——o1-preview。除了o1,OpenAI还展示了目前正在开发的下次更新的评估。
o1模型一举创造了很多历史记录。
结果表明:o1超越了人类专家,成为第一个在该基准测试中做到这一点的模型。
OpenAI连续12天发布会
重磅的更新包括:o1正式版、Sora、Canvas,它们主要集中在前4天发布。
其中,o1正式版确实提升很大,Sora则是增加了不少对AI生成视频进行更改的产品模式,Canvas可以被视为OpenAI第一次挑战AI工作台的产品尝试。
其次,相对还有些看点的是:和苹果的深度合作,视频通话功能,以及o1-mini的强化微调。
【2023-2-16】亚马逊的Mutimodal-CoTLargeoutperformsGPT-3.5by16.51%(75.17%→91.68%)andsurpasseshumanperformanceontheScienceQAbenchmarkandevensurpasses
Toolformer可能是未来LLM(大语言模型)发展的一个重要分支。
不过,Toolformer所展现出的“自学”能力,还是一个初级、“狭义”的版本。
Meta给这个会使工具的语言模型起名Toolformer。逻辑,总结下来很简单,就是:专业的任务交给专业工具做。
比如说,执行任务:
除了这些工具之外,Toolformer还能够调用Q&A以及搜索引擎等工具。
Toolformer经过训练,能够在生成文本中插入API调用,直接将任务外包出去。
这个过程主要分成三步:
基于这些有用的数据集,Toolformer便可以对预先训练好的大语言模型进行微调。
论文将Toolformer和多个其他大语言模型,包括GPT-J,OPT(66B)以及GPT-3(175B)进行了对比,比较了它们在数学、Q&A以及机器翻译等方面的能力。
结果显示,在学习使用工具后,GPT-J的零样本学习性能的到了显著的提高。并且在大多数任务上性能都有明显提高,在一些下游任务中Toolformer甚至已经超过了GPT-3。
ChatGPT中核心训练方法“人类反馈强化学习(RLHF)”,可以让模型更安全、输出结果更遵循人类意图。谷歌Research和UC伯克利的研究人员发现,将该方法用在AI绘画上,“治疗”图像跟输入不完全匹配的情况,效果也奇好——高达47%的改进。