最新GPT4在律考中击败90%人类,它到底强在哪?腾讯云开发者社区

GPT-4有多强,GRE考试接近满分,律考比肩顶级律师,随手画个草图就能做出同款网页。当国内还在热议人工智能对话大模型产品ChatGPT时,背后核心预训练模型技术GPT却突然重磅升级。

钛媒体App了解到,OpenAI发布的GPT-4在各种专业学术基准上有着人类水平表现。例如在模拟律师考试中,GPT-4得分约为前10%——击败了90%人类,而ChatGPT背后的GPT-3.5得分约为倒数10%。

“GPT-4是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人。”OpenAI工程师在开发者Demo视频中表示,GPT-4是OpenAI努力扩展深度学习的最新里程碑。OpenAI称,GPT-4虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。

钛媒体App获悉,即日起,ChatGPTPlus付费订阅用户现可直接使用GPT-4版本的ChatGPT,未来则将对免费用户开放一定数量的GPT-4体验。同时,GPT-4API需要申请候选名单,今天将开始邀请一些开发人员,并不断扩大邀请规模,每1000字符的价格为0.03美元;图像输入则处在研究预览阶段,仅对少部分用户开放。

不过,GPT-4仍存在改进空间。虽然这次模型大升级,但之前ChatGPT会出现幻觉、“胡说八道”的毛病还是没能在GPT-4中完全改掉。

谁能革得了ChatGPT的命?现在看来还是OpenAI自己。

聊GPT-4之前,先要了解GPT到底是什么。

随着1956年“达特茅斯会议”上创造“人工智能”这个术语,全球迎来了AI技术发展阶段。在2016年谷歌DeepMind的“阿尔法狗”(AlphaGo)击败了韩国围棋冠军李世乭,以及机器学习的诞生,AI算法、算力、数据“三驾马车”获得了突破性技术进展。

但问题在于,机器学习利用循环神经网络(RNN)——序列数据或时序数据的人工神经网络来处理文字,使得文字按顺序一个个处理,没办法同时进行大量学习。

因此2017年,谷歌团队发布论文“AttentionIsAllYouNeed”,提出了一个新的学习框架Transformer,以解决此问题。它抛弃了传统的CNN(卷积神经网络)和RNN,使整个网络结构完全由Attention机制组成,从而让机器同时学习大量的文字,训练速度效率大大提升。

简单来说,只需要LLM(大型语言模型)、大型参数量和算力算法训练,以Attention机制就可实现快速的机器学习能力。因此,无论是ChatGPT的T,还是谷歌预训练语言模型BERT的T,均是Transformer的意思。

“GPT-3.5和GPT-4之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。”OpenAI表示,在过去的两年里,团队重建了整个深度学习堆栈,并与微软Azure一起,为GPT工作负载从头开始共同设计了一台超级计算机。经过训练和修复更新之后,GPT-4前所未有地稳定,成为OpenAI能够提前准确预测其训练性能的第一个大型模型。

那么,GPT-4技术到底怎么样?为了了解这模型差异,根据官方实验表明,GPT-4在各种专业测试和学术基准上的表现与人类水平相当。

首先,在美国BAR律师执照统考模拟中,GPT-4得分约为前10%——击败了90%人类,而ChatGPT背后的GPT-3.5得分约为倒数10%;生物奥林匹克竞赛,GPT-3.5能达到后31%水平分位,GPT-4可达到前1%水平分位;研究生入学考试(GRE)、SAT数学考试成绩中,也有大幅提升,击败了80%以上的人类答题水平,而医学知识自测考试准确率达75%。

第二个测试是与其他英文机器学习模型的技术能力。研究团队使用微软AzureTranslate,将MMLU基准——一套涵盖57个主题、14000个多项选择题翻译成多种语言。在测试的英语、拉脱维亚语、威尔士语和斯瓦希里语等26种语言中,有24种语言下,GPT-4优于GPT-3.5和其他大语言模型(Chinchilla、PaLM)的英语语言性能。

而在TruthfulQA等外部基准测试方面,GPT-4也取得了进展。OpenAI测试了GPT-4模型将事实与错误陈述的对抗性选择区分开的能力。实验结果显示,GPT-4基本模型在此任务上仅比GPT-3.5略好。但在经过RLHF训练之后,二者的差距就很大了,例如GPT-4在测试中并不是所有时候它都能做出正确的选择。

对于一个长相奇怪的充电器的图片问为什么这很可笑?GPT-4回答:VGA线充iPhone。

GPT-4回答数学问题

总的来说,GPT-4相对于以前的模型(经过多次迭代和改进)已经显著减轻了判断失误问题。在OpenAI的内部对抗性真实性评估中,GPT-4的得分比ChatGPT使用的GPT-3.5模型能力高40%。

很显然,虽然GPT-4对于许多现实场景的处理比人类差,但在各种专业和学术基准上已表现出和人类相当的水平。

不过,GPT-4模型也有很多不足,有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息,以及对实时事件的不了解等。

1、该模型在其输出中可能会有各种偏见,但OpenAI在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。2、GPT-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。3、GPT-4预测时也可能出错但很自信,意识到可能出错时也不会再检查一遍(double-check)。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过OpenAI目前训练后的过程,校准减少了。

OpenAI表示,研究团队一直在对GPT-4进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。数据显示,与GPT-3.5相比,模型对不允许内容的请求的响应倾向降低了82%,而GPT-4对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了29%。

另外,OpenAI团队还聘请了50多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试,从而为改进GPT模型提供了依据。

“随着我们继续专注于可靠的扩展,我们的目标是完善我们的方法,以帮助我们越来越多地提前预测和准备未来的能力——我们认为这对安全至关重要。”OpenAI表示。

不过,目前OpenAI公开的技术报告中,不包含任何关于模型架构、硬件、算力等方面的更多信息,也不包括期待已久的AI视频功能,也并没有开放GPT-4的任何核心技术论文信息。

但OpenAI正在开源其软件框架OpenAIEvals,用于创建和运行基准测试以评估GPT-4等模型,同时逐个样本地检查它们的性能。

复旦大学计算机学院教授、博士生导师黄萱菁此前表示,OpenAI迄今为止没有开放过它的模型,只开放过API接口,你可以调用它,但拿不到GPT-3.5内部细节,而且今年连论文都没有,需要大家去猜测。

实际上,随着基于GPT技术的ChatGPT风靡全球,全球已经进入了AI大模型军备竞赛。

首先是影响到搜索引擎巨头地位的谷歌。手握LaMDA、PaLM,Imagen等AI技术的谷歌,不会让微软这么轻易就抢占了AI应用的先机。

更早之前,谷歌发布了ChatGPT最大竞品、基于LaMDAAI架构的Bard聊天机器人,支持多角度回答问题,以及强大的上下文理解能力,未来Bard还会被集合在Google搜索之中,为你更快速地提供答案。不过Bard在Demo演示中频繁“翻车”,市场并不看好。

3月15日凌晨,谷歌宣布开放自家的大语言模型PaLMAPI,而且还发布了一款帮助开发者快速构建AI程序的工具MakerSuite。谷歌表示,此举是为了帮助开发者们快速构建生成式AI应用。

相对于谷歌,微软做好了充足的准备。

今年2月,微软宣布数十亿美元投资OpenAI公司,后者估值高达290亿美元,成为AIGC领域最高估值的独角兽公司。如今,微软已经在旗下所有产品中全线整合ChatGPT,包括且不限于Bing搜索引擎、包含Word、PPT、Excel的Office全家桶、Azure云服务、Teams聊天程序等预计本周四(16日),微软将宣布GPT-4与Azure云服务的结合。

目前在国内,百度、商汤、旷视科技等多家AI公司和科研机构都在做关于大模型的技术产品和应用。

就在3月14日晚,港股AI龙头企业商汤科技发布了多模态通用大模型“书生2.5”,拥有30亿参数,支持问答、识图、以文生图等,在自动驾驶和居家机器人等通用场景下,“书生2.5”可辅助处理各种复杂任务,并已在通用视觉开源平台OpenGVLab开源。据悉,“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于2021年11月首次共同发布,并持续联合研发。

尽管中国在AI领域进行了很多研究成果和布局,但目前要达到像OpenAI的效果可能还需时日。科学技术部部长王志刚3月5日表示,ChatGPT证明了AI是大方向,而OpenAI在AI对话实时效果方面有明显优势。

“比如发动机,大家都能做出发动机,但质量是有不同的。踢足球都是盘带、射门,但是要做到梅西那么好也不容易。”王志刚表示。

那么,国内AI技术行业如何看待中国企业做大模型的呢?

创新工场董事长兼CEO李开复博士在3月14日表示,ChatGPT快速普及将进一步引爆AI2.0商业化。AI2.0是绝对不能错过的一次革命。

旷视科技联合创始人、CEO印奇3月10日对钛媒体App表示,中国攻坚AI大模型,要先把GPT-3.5复现出来,但过程没有想象的那么容易。国内一方面要用最艰苦朴素、奋斗的状态来攻坚核心AI技术,另外中国AI公司想活得长,必须要把大模型商业化。“我们要有极强的危机感。”

澜舟科技创始人兼CEO周明告诉钛媒体App,对于国内而言,中国做大模型还是更多的要去了解国外的发展趋势,不能固步自封,还是需要学习;但同时中国AI技术在过去20多年取得长足的进步,无论人才还是技术,中国有很好的历史性机遇,更多是乐观,而非悲观。

“中国在ToB(企业端)落地方面应该走在ChatGPT前面。如何把中国特色发挥到极致,是大家都要彼此思考的问题。”周明创立的语音大模型公司澜舟科技在3月14日宣布完成Pre-A+轮融资,并公布了该公司研发的“孟子MChat可控大模型”,此前周明在微软工作超过20年。

就目前来看,GPT-4是OpenAI在扩展深度学习道路上的最新里程碑。但正如OpenAI所言,前方还有很多工作要做,需要通过用户和开发者的不断测试,以及社区在模型之上构建、探索和贡献,从而持续将模型变得越来越强。

无论中国公司能够做到哪种地步,唯一确定的是,这一次,我们人类离通用人工智能(AGI)更近了一步。(本文首发钛媒体App,作者|林志佳)

THE END
1.法考攻略法考八门科目怎么取舍?注意,对于放弃的科目,也要花点点时间大概了解一下科目讲的什么内容、看几道题型,确保你在考试时能快速识别出一道题是哪一科的,如果是你放弃的科,可以直接蒙,不必浪费时间在这些题上,留给其他题,因为很多人考客观题也做不完题。如果不熟悉,可能你会把一道三国法的题当成一道民法、民诉法题来做。https://www.jianshu.com/p/86f8759653bb
2.成人自考法律本科专业难吗都考哪几门成人自考法律本科专业难吗 都考哪几门 大专生或本科生可以申请免考非法律专业的科目,有的同学可能本身就是学法律专业出身的,对于他们来说相对会更容易些;如果不是法律专业出身的,可以参加法律专业的“独立本科”考试,考过相关的课程后就可以申请本科毕业。https://www.cjzk.cn/show/43397.html
3.无讼阅读留学考BAR全面解读美国律考:LLM的NY和CA的Bar那个更一、美国加州律考CA Bar Examination 在美国所有的州和地区中,加州的在职律师数量最多,截止到2016年5月,达到76,840人,平均每1000人中就有4.81人是律师,由于加州的报考条件会相对宽泛,加之地理环境优越,没有纽约州的竞争那么激烈,且就业环境好,成为国际生和就读LL.M.期间选课未能达到NY bar要求的学生报考美国律师https://victory.itslaw.com/victory/api/v1/articles/article/dd6173ff-e934-453b-bf80-ed5645499aaa
4.法律教育网中国政法大学教授,近几年一直担任指定用书(行政法卷)主编,多年参加律考招生出题和评卷工作,讲解通俗易懂,辅导脉络清晰,重点明确,对司法考试命题动态有深刻的把握,尚无出其右者,其讲述中的名言:“水有多深?深不可测,深不用测。”已成为考生中广为流传的口头禅。 被誉为 “行政法培训第一人”。 http://www.jscj.com/lawedu/
5.秦"改法为律"原因考秦"改法为律"原 因考 武树 臣摘要 :文章在对秦国商鞅 "改法为律"的真实性提出肯定性意见的同时,从社会文化特别是法律 样式的 角度,对秦 "改法为律"的原因进行新的探讨.作者认为,从三代的 "以刑统例"到战国的 "以法统令",再到 秦 国的 "以律统 刑",反 映了先秦 法律历史发展 的三个 阶段.秦https://faxuejia.ruc.edu.cn/CN/PDF/85
6.中国古代自首制度考析中国古代自首制度考析 【摘要】自首制度是刑法体系中一项重大复杂的量刑制度。中国古代自首制度从其产生、发展到成熟经历了漫长的历史演进过程。作为古代法代表的唐律,对自首制度作了详细而全面的规定,形成了完备的自首制度。唐代以后各朝律典几乎完全沿袭唐律自首制度,基本上没有大的发展与突破。http://www.110.com/ziliao/article-261771.html
7.2024年了,没人会嫌证书多!这些“三高”法律合规证书,非法本非执业*和加州律考不同,纽约律考的考生需拥有美国本土Juris Doctor(J.D)或 Master of Laws(LL.M),该学历必须在美国当地法学院完成,赴美国攻读J.D或LL.M的中国留学生必须选择是美国律师协会(ABA)承认的院校,并满足NYBAR考试特定科目和学分,方可报考NYBAR考试。 http://www.wproedu.com/law/usbar/news/xmdt/show_2700.html
8.法律资格考试老师推荐和总结律考、司考、法考不问其名,写的不好欢迎批评,也不问其后续名,全国线的通过率并不是很高,现在的法考时代不是单独考法条、理论、单独知识点而是综合性试题更加接近实务,多数以真实的案例作为原型,每一题考察多个知识点,将法律、法条、理论、司法解释等融合考察,更全面、更系统、更难、需要考生来回穿梭各法律中推出https://www.meipian.cn/2wqluhwk
9.法律界“门槛考试”如何遴选法律专业法律界“门槛考试”如何遴选从“律考”到“司考”再到“法考”,作为法律界的“门槛考试”,为国家遴选了一大批法律专业人才,很多人已成为骨干力量,他们努力维护当事人的合法权益,努力维护法律的正确实施,为国家民主与法制建设作出了应有贡献。法律界“门槛考试”之变迁折射出中国法律人职业化的不断发展,也见证着中国法治的进程 ? 律考把好http://www.lst.gov.cn/lst/bmdt/201907/5b28ff276f1844aeb740b82728853374.shtml