GPT-4vs.ChatGPT:AnExplorationofTraining,Performance,Capabilities,andLimitations
GPT-4对决ChatGPT:基于训练、性能、功能和局限性的探索
GPT-4isanimprovement,buttemperyourexpectations.
GPT-4是(ChatGPT)的演进,但要降低你的期待。
OpenAIstunnedtheworldwhenitdroppedChatGPTinlate2022.Thenewgenerativelanguagemodelisexpectedtototallytransformentireindustries,includingmedia,education,law,andtech.Inshort,ChatGPTthreatenstodisruptjustabouteverything.Andevenbeforewehadtimetotrulyenvisionapost-ChatGPTworld,OpenAIdroppedGPT-4.
Inrecentmonths,thespeedwithwhichgroundbreakinglargelanguagemodelshavebeenreleasedisastonishing.Ifyoustilldon’tunderstandhowChatGPTdiffersfromGPT-3,letaloneGPT-4,Idon’tblameyou.
近几个月来,突破性的大型语言模型的发布速度令人吃惊。如果你还不明白ChatGPT与GPT-3有什么不同,更不用说GPT-4了。
Inthisarticle,wewillcoverthekeysimilaritiesanddifferencesbetweenChatGPTandGPT-4,includingtheirtrainingmethods,performanceandcapabilities,andlimitations.
本文将介绍ChatGPT和GPT-4的主要异同,包括它们的训练方法、性能、功能以及局限性。
ChatGPTvs.GPT-4:Similarities&differencesintrainingmethods
ChatGPT与GPT-4:训练方法的相似性和差异性
ChatGPTandGPT-4bothstandontheshouldersofgiants,buildingonpreviousversionsofGPTmodelswhileaddingimprovementstomodelarchitecture,employingmoresophisticatedtrainingmethods,andincreasingthenumberoftrainingparameters.
ChatGPT和GPT-4都站在巨人的肩膀上,在以前版本的GPT模型基础上,增加了对模型结构的改进,采用了更复杂的训练方法,并增加了训练参数的数量。
Bothmodelsarebasedonthetransformerarchitecture,whichusesanencodertoprocessinputsequencesandadecodertogenerateoutputsequences.Theencoderanddecoderareconnectedbyanattentionmechanism,whichallowsthedecodertopaymoreattentiontothemostmeaningfulinputsequences.
OpenAI’sGPT-4TechnicalReportofferslittleinformationonGPT-4’smodelarchitectureandtrainingprocess,citingthe“competitivelandscapeandthesafetyimplicationsoflarge-scalemodels.”WhatwedoknowisthatChatGPTandGPT-4areprobablytrainedinasimilarmanner,whichisadeparturefromtrainingmethodsusedforGPT-2andGPT-3.WeknowmuchmoreaboutthetrainingmethodsforChatGPTthanGPT-4,sowe’llstartthere.
OpenAI的GPT-4技术报告几乎没有提供有关GPT-4模型架构和训练过程的信息,引用了“竞争格局和大型模型的安全影响”。我们所知道的是,ChatGPT和GPT-4可能以类似的方式进行训练,这与用于GPT-2和GPT-3的训练方法不同。由于我们对ChatGPT的训练方法比GPT-4了解更多,所以将从这里开始讲起。
ChatGPT
Tostartwith,ChatGPTistrainedondialoguedatasets,includingdemonstrationdata,inwhichhumanannotatorsprovidedemonstrationsoftheexpectedoutputofachatbotassistantinresponsetospecificprompts.Thisdataisusedtofine-tuneGPT3.5withsupervisedlearning,producingapolicymodel,whichisusedtogeneratemultipleresponseswhenfedprompts.Humanannotatorsthenrankwhichoftheresponsesforagivenpromptproducedthebestresults,whichisusedtotrainarewardmodel.Therewardmodelisthenusedtoiterativelyfine-tunethepolicymodelusingreinforcementlearning.
首先,ChatGPT在对话数据集上接受训练,包括演示数据,其中人工注释者提供聊天机器人助手响应特定提示的预期输出的演示。这些数据被用来通过监督学习对GPT3.5进行微调,生成策略模型,当输入提示时,该模型被用来产生多种反应。然后,人工注释者对给定提示的响应进行排名,产生最佳结果,用于训练奖励模型。继而使用奖励模型通过强化学习迭代地微调策略模型。
Tosumitupinonesentence,ChatGPTistrainedusingReinforcementLearningfromHumanFeedback(RLHF),awayofincorporatinghumanfeedbacktoimprovealanguagemodelduringtraining.Thisallowsthemodel’soutputtoaligntothetaskrequestedbytheuser,ratherthanjustpredictthenextwordinasentencebasedonacorpusofgenerictrainingdata,likeGPT-3.
一句话概括,ChatGPT是使用人类反馈强化学习(RLHF)进行训练的,这是一种在训练过程中结合人类反馈来改进语言模型的方法。这使得模型的输出与用户要求的任务相一致,而不是像GPT-3那样,仅仅根据通用训练数据的语料库来预测句子中的下一个词。
GPT-4
OpenAIhasyettodivulgedetailsonhowittrainedGPT-4.TheirTechnicalReportdoesn’tinclude“detailsaboutthearchitecture(includingmodelsize),hardware,trainingcompute,datasetconstruction,trainingmethod,orsimilar.”WhatwedoknowisthatGPT-4isatransformer-stylegenerativemultimodalmodeltrainedonbothpubliclyavailabledataandlicensedthird-partydataandsubsequentlyfine-tunedusingRLHF.Interestingly,OpenAIdidsharedetailsregardingtheirupgradedRLHFtechniquestomakethemodelresponsesmoreaccurateandlesslikelytoveeroutsidesafetyguardrails.
Aftertrainingapolicymodel(aswithChatGPT),RLHFisusedinadversarialtraining,aprocessthattrainsamodelonmaliciousexamplesintendedtodeceivethemodelinordertodefendthemodelagainstsuchexamplesinthefuture.InthecaseofGPT-4,humandomainexpertsacrossseveralfieldsratetheresponsesofthepolicymodeltoadversarialprompts.Theseresponsesarethenusedtotrainadditionalrewardmodelsthatiterativelyfine-tunethepolicymodel,resultinginamodelthat’slesslikelytogiveoutdangerous,evasive,orinaccurateresponses.
在训练完一个政策模型后(如ChatGPT),RLHF被用于对抗性训练,这是一个对旨在欺骗模型的恶意例子进行训练的过程,以便在未来抵御这种例子。在GPT-4的案例中,多个领域的人类领域专家对政策模型对对抗性提示的反应进行了评级。然后,这些反应被用来训练额外的奖励模型,对政策模型进行反复微调,从而形成一个不太可能给出危险、逃避或不准确反应的模型。
ChatGPTvs.GPT-4:Similarities&differencesinperformanceandcapabilities
ChatGPT与GPT-4:性能和功能的异同
Capabilities
功能
Intermsofcapabilities,ChatGPTandGPT-4aremoresimilarthantheyaredifferent.Likeitspredecessor,GPT-4alsointeractsinaconversationalstylethataimstoalignwiththeuser.Asyoucanseebelow,theresponsesbetweenthetwomodelsforabroadquestionareverysimilar.
就功能而言,ChatGPT和GPT-4的相似之处多于它们的不同之处。与其前身一样,GPT-4也是以对话式的方式进行互动,旨在与用户保持一致。正如你在下面看到的,两个模型之间对一个广泛问题的回答非常相似。
OpenAIagreesthatthedistinctionbetweenthemodelscanbesubtleandclaimsthat“differencecomesoutwhenthecomplexityofthetaskreachesasufficientthreshold.”GiventhesixmonthsofadversarialtrainingtheGPT-4basemodelunderwentinitspost-trainingphase,thisisprobablyanaccuratecharacterization.
OpenAI认为,模型之间的区别可能是微妙的,并声称"当任务的复杂性达到足够的阈值时,就会出现差异"。鉴于GPT-4基础模型在训练后阶段经历了六个月的对抗性训练,这可能是一个准确的表征。
UnlikeChatGPT,whichacceptsonlytext,GPT-4acceptspromptscomposedofbothimagesandtext,returningtextualresponses.Asofthepublishingofthisarticle,unfortunately,thecapacityforusingimageinputsisnotyetavailabletothepublic.
与只接受文本的ChatGPT不同,GPT-4接受由图像和文本组成的提示,并返回文本响应。遗憾的是,截至本文发表时,GPT-4使用图像输入的能力还没有向公众开放。
Performance
性能
Asreferencedearlier,OpenAIreportssignificantimprovementinsafetyperformanceforGPT-4,comparedtoGPT-3.5(fromwhichChatGPTwasfine-tuned).However,whetherthereductioninresponsestorequestsfordisallowedcontent,reductionintoxiccontentgeneration,andimprovedresponsestosensitivetopicsareduetotheGPT-4modelitselfortheadditionaladversarialtestingisunclearatthistime.
如前所述,OpenAI报告称,与GPT-3.5(ChatGPT是由其微调而来)相比,GPT-4的安全性能有了明显的改善。然而,减少对不允许内容请求的响应、减少有毒内容的生成以及改善对敏感话题的响应,是由于GPT-4模型本身还是由于额外的对抗性测试,目前尚不清楚。
Additionally,GPT-4outperformsCPT-3.5onmostacademicandprofessionalexamstakenbyhumans.Notably,GPT-4scoresinthe90thpercentileontheUniformBarExamcomparedtoGPT-3.5,whichscoresinthe10thpercentile.GPT-4alsosignificantlyoutperformsitspredecessorontraditionallanguagemodelbenchmarksaswellasotherSOTAmodels(althoughsometimesjustbarely).
此外,GPT-4在人类参加的大多数学术和专业考试中都优于CPT-3.5。值得注意的是,GPT-4在统一律师考试中的得分是90分,而GPT-3.5的得分则是10分。GPT-4在传统的语言模型基准以及其他SOTA模型上也明显优于其前身(尽管有时只是勉强)。
ChatGPTvs.GPT-4:Similarities&differencesinlimitations
ChatGPT与GPT-4:限制性的异同
BothChatGPTandGPT-4havesignificantlimitationsandrisks.TheGPT-4SystemCardincludesinsightsfromadetailedexplorationofsuchrisksconductedbyOpenAI.
ChatGPT和GPT-4都有很大的局限性和风险。GPT-4系统卡包括OpenAI对此类风险进行的详细探索的见解。
Thesearejustafewoftherisksassociatedwithbothmodels:
·Hallucination(thetendencytoproducenonsensicalorfactuallyinaccuratecontent)
·幻觉(倾向于产生无意义或与事实不符的内容)
·ProducingharmfulcontentthatviolatesOpenAI’spolicies(e.g.hatespeech,incitementstoviolence)
·制作违反OpenAI政策的有害内容(如仇恨言论、煽动暴力)。
·Amplifyingandperpetuatingstereotypesofmarginalizedpeople
·扩大和延续对边缘化人群的刻板印象
Generatingrealisticdisinformationintendedtodeceive
生成意在欺骗的现实虚假信息
WhileChatGPTandGPT-4strugglewiththesamelimitationsandrisks,OpenAIhasmadespecialefforts,includingextensiveadversarialtesting,tomitigatethemforGPT-4.Whilethisisencouraging,theGPT-4SystemCardultimatelydemonstrateshowvulnerableChatGPTwas(andpossiblystillis).Foramoredetailedexplanationofharmfulunintendedconsequences,IrecommendreadingtheGPT-4SystemCard,whichstartsonpage38oftheGPT-4TechnicalReport.
虽然ChatGPT和GPT-4在同样的限制和风险中挣扎,但OpenAI已经做出了特别的努力,包括广泛的对抗性测试,以减轻GPT-4的风险。虽然这令人鼓舞,但GPT-4系统卡最终显示了ChatGPT是多么的脆弱(而且可能仍然是)。关于有害的非预期后果的更详细解释,我建议阅读GPT-4系统卡,它从GPT-4技术报告的第38页开始。
Conclusion
结论
Inthisarticle,wereviewthemostimportantsimilaritiesanddifferencesbetweenChatGPTandGPT-4,includingtheirtrainingmethods,performanceandcapabilities,andlimitationsandrisks.
本文中,我们回顾了ChatGPT和GPT-4之间最重要的异同点,包括它们的训练方法、性能和能力,以及限制和风险。
WhileweknowmuchlessaboutthemodelarchitectureandtrainingmethodsbehindGPT-4,itappearstobearefinedversionofChatGPTthatnowacceptsimageandtextinputsandclaimstobesafer,moreaccurate,andmorecreative.Unfortunately,wewillhavetotakeOpenAI’swordforit,asGPT-4isonlyavailableaspartoftheChatGPTPlussubscription.
虽然我们对GPT-4背后的模型架构和训练方法知之甚少,但它似乎是ChatGPT的改进版,现在接受图像和文本输入,并声称更安全、更准确、更有创造性。不幸的是,我们将不得不相信OpenAI的话,因为GPT-4只作为ChatGPTPlus订阅的一部分提供。
ThetablebelowillustratesthemostimportantsimilaritiesanddifferencesbetweenChatGPTandGPT-4:
下表说明了ChatGPT和GPT-4之间最重要的异同点:
Theraceforcreatingthemostaccurateanddynamiclargelanguagemodelshasreachedbreakneckspeed,withthereleaseofChatGPTandGPT-4withinmeremonthsofeachother.Stayinginformedontheadvancements,risks,andlimitationsofthesemodelsisessentialaswenavigatethisexcitingbutrapidlyevolvinglandscapeoflargelanguagemodels.
随着ChatGPT和GPT-4在短短几个月内相继问世,一场旨在创建最准确和动态的大型语言模型的竞赛已经进入白热化。当我们驾驭大型语言模型这个令人兴奋但快速发展的领域时,了解这些模型的进展、风险和限制至关重要。