Meta开源的ChatGPT平替到底好不好用?测试结果加料改装方法已出炉澎湃号·湃客澎湃新闻

Meta开源的大模型系列LLaMA评测出炉,对比结果显示,和ChatGPT还是有差距的。

ChatGPT的持续爆火,早已让各大科技公司坐不住了。

就在刚刚过去的一周,Meta「开源」了一个新的大模型系列——(LargeLanguageModelMetaAI),参数量从70亿到650亿不等。因为LLaMA比之前发布的很多大模型参数更少,但性能更好,所以一经发布让很多研究者兴奋不已。

例如,130亿参数的LLaMA模型「在大多数基准上」可以胜过参数量达1750亿的GPT-3,而且可以在单块V100GPU上运行;而最大的650亿参数的LLaMA模型可以媲美谷歌的Chinchilla-70B和PaLM-540B。

参数量的减少对于普通研究者和商业机构来说都是好事,但LLaMA真的像论文中说得那样表现那么好吗?和当前的ChatGPT相比,LLaMA是否可以勉强一战?为了解答这些疑问,有些研究者已经对这一模型进行了测试。

还有公司已经在尝试补齐LLaMA短板,想看能不能通过添加RLHF等训练方法让LLaMA表现更好。

LLaMA初步评测

作者在RTX3090/RTX4090上运行LLaMA7B/13B版本,在单个A100上运行33B版本。

需要注意的是,与ChatGPT不同,其他模型并不是基于指令微调,因此prompt的结构有所不同。

解释笑话

这是谷歌原始PaLM论文中展示的一个用例:给出一个笑话,让模型来解释它为什么好笑。该任务需要将世界知识和一些基本逻辑相结合。PaLM之前的所有模型都无法做到这一点。作者从PaLM论文中提取了一些示例,比较了LLaMA-7B、LLaMA-13B、LLaMA-33B与ChatGPT的表现。

不过,ChatGPT起码get到了关于Schmidthuber的笑话。但总的来说,这些模型在零样本笑话解释任务上的效果与PaLM相差甚远(除非PaLM的示例是精心挑选)。

零样本分类

作者考虑的第二项任务更具挑战性——标题党(clickbait)分类。由于连人类也无法就什么是标题党达成一致,作者在prompt中为这些模型提供了一些示例(因此实际上是小样本而非零样本)。如下为LLaMa的prompt:

Iwilltellwhetherthefollowingnewstitlesareclickbait:1)TheWORSTcarehomesinEngland:Interactivemaprevealsthelowest-rated2,530residences-soisthereonenearyouClickbait:yes2)Netflix'stop10most-watchedmoviesofalltimeClickbait:yes3)PeeringThroughtheFogofInflationClickbait:no4)You’llneverbelievewhichTVcookthischeekychapgrewuptobeClickbait:yes

下图为LLaMA-7B、LLaMA-13B、LLaMA-33B与ChatGPT的更多示例结果。

很明显,赢家为LLaMA-33B,它是唯一一个能够遵循所有请求格式(yes/no)的模型,并且预测合理。ChatGPT也还可以,但有些预测不太合理,格式也有错误。较小的模型(7B/13B)不适用于该任务。

代码生成

虽然LLM擅长人文学科,但在STEM学科上表现糟糕。LLaMA虽然有基准测试结果,但作者在代码生成领域尝试了一些特别的东西,即将人类语言零样本地转换为SQL查询。这并不是很实用,在现实生活中直接编写查询会更有效率。这里只作为代码生成任务的一个示例。

在prompt中,作者提供表模式(tableschema)以及想要实现的目标,要求模型给出SQL查询。如下为一些随机示例,老实说,ChatGPT看起来效果更好。

--Wehaveatable`events`withcolumns`event_id`,`timestamp`,`user_id`,`rpc_method`.--Wewanttocounthowmanyusersissuedrequest"Login"overthelastweek.--SQLqueryforthisis:

--7bSELECTcount(*)FROMeventsWHEREuser_idIN(SELECTuser_idFROMeventsWHEREtimestamp>=NOW()-INTERVAL7DAY)ANDrpc_method='Login';

--13bSELECTCOUNT(*)FROMeventsWHERErpc_method="Login"ANDUNIX_TIMESTAMP(timestamp)>=UNIX_TIMESTAMP(CURRENT_DATE-INTERVAL7DAY)

--33bSELECTuser_id,COUNT(DISTINCTuser_id)AStotalFROMeventsWHEREtimestampBETWEENTIMESTAMP'2013-08-1400:00:00'ANDTIMESTAMP'2013-08-2100:00:00'ANDrpc_method='Login'GROUPBYuser_id

--ChatGPTSELECTCOUNT(DISTINCTuser_id)FROMeventsWHERErpc_method='Login'ANDtimestamp>=DATE_SUB(NOW(),INTERVAL1WEEK);

从测试结果来看,LLaMA在一些任务上表现还不错,但在另一些任务上和ChatGPT还有一些差距。如果能像ChatGPT一样加入一些「训练秘籍」,效果会不会大幅提升?

加入RLHF,初创公司NebulyAI开源ChatLLaMA训练方法

虽然LLaMA发布之初就得到众多研究者的青睐,但是少了RLHF的加持,从上述评测结果来看,还是差点意思。

在LLaMA发布三天后,初创公司NebulyAI开源了RLHF版LLaMA(ChatLLaMA)的训练方法。它的训练过程类似ChatGPT,该项目允许基于预训练的LLaMA模型构建ChatGPT形式的服务。项目上线刚刚2天,狂揽5.2K星。

ChatLLaMA训练过程算法实现主打比ChatGPT训练更快、更便宜,我们可以从以下四点得到验证:

ChatLLaMA是一个完整的开源实现,允许用户基于预训练的LLaMA模型构建ChatGPT风格的服务;

与ChatGPT相比,LLaMA架构更小,但训练过程和单GPU推理速度更快,成本更低;

ChatLLaMA内置了对DeepSpeedZERO的支持,以加速微调过程;

更是有研究者表示,ChatLLaMA比ChatGPT训练速度最高快15倍。

不过有人对这一说法提出质疑,认为该项目没有给出准确的衡量标准。

项目刚刚上线2天,还处于早期阶段,用户可以通过以下添加项进一步扩展:

带有微调权重的Checkpoint;

用于快速推理的优化技术;

支持将模型打包到有效的部署框架中。

NebulyAI希望更多人加入进来,创造更高效和开放的ChatGPT类助手。

该如何使用呢?首先是使用pip安装软件包:

pipinstallchatllama-py

然后是克隆LLaMA模型:

一切准备就绪后,就可以运行了,项目中介绍了ChatLLaMA7B的训练示例,感兴趣的小伙伴可以查看原项目。

参考链接:

原标题:《Meta开源的ChatGPT平替到底好不好用?测试结果、加料改装方法已出炉,2天5.2k星》

THE END
1.ChatGPT与接口测试chatgpt实现接口测试csdnChatGPT与接口测试 2024软件测试面试刷题,这个小程序(永久刷题),靠它快速找到工作了!(刷题APP的天花板)-CSDN博客文章浏览阅读1.3k次,点赞60次,收藏8次。你知不知道有这么一个软件测试面试的刷题小程序。里面包含了面试常问的软件测试基础题,web自动化测试、app自动化测试、接口测试、性能测试、自动化测试、安全https://blog.csdn.net/2301_76387166/article/details/134993585
2.如何使用chatGPT做谷歌SEO文章优化?这个工具是我之前在测试chatgpt内容的时候发现的,虽然是免费的但是和付费的做对比以后发现准确率还是很高的。如果想长期使用chatGPT产生内容的朋友,这个工具还是非常的推荐给你们的。 图片来源:zeroGPT截图 如果该工具发现有了AI写的内容会以黄色背景的形式显示出来,这种内容如果发布在谷歌网站或者社媒上的话就会被被检测https://www.cifnews.com/article/150840
3.如何搭建并部署ChatGPT接口服务如何搭建并部署ChatGPT接口服务 最近有不少朋友在问用于微信的ChatGPT接口以及怎么搭建ChatGPT接口服务,本文将以一个github开源项目为例,演示在Linux下搭建ChatGPT接口服务的流程。 一、准备工作 1、一台国外服务器(Linux环境) 国内的服务器目前无法访问ChatGPT的服务。https://www.deanhan.cn/create-chatgpt-api-for-wechat.html
4.用ChatGPT做软件测试dayuhome的技术博客本书以目前流行的大语言模型ChatGPT为基础,用丰富的案例演示ChatGPT在软件测试中的赋能作用。本书主要介绍如何用ChatGPT生成需求规格说明书、测试计划、功能测试用例、自动化测试用例、接口测试用例、测试数据和性能测试用例,以及ChatGPT在分析测试结果、辅助CI(Continuous Integration,持续集成)、生成测试总结报告和职业发展https://blog.51cto.com/u_13542393/12412401
5.对话ChatGPT一次产品视角的GPT功能测试(基于gpt3.5模型)Hello,大家好,作为一个又菜又爱玩的产品,OpenAI在厚积薄发后,其4.0的大语义模型通过了图灵测试,一时间国内产品圈和互联网圈“狼来了“的各种言论喧嚣直上。各种营销号也开始疯狂的贩卖焦虑,但是这个东西到底是一个颠覆生产关系的跨时代产品,还是一个营销的骗局呢?没有实践就没有发言权: https://www.imooc.com/article/334971
6.连玉君:我与ChatGPT聊了一个月说明:下面这段代码是这两天我刚写的,存放在我的本地电脑上。我没有通过邮件或微信跟任何人分享过这个代码。我想测试一下 ChatGPT 能否读懂这段代码,并帮我写个解读代码的说明文档 (类似于帮助文件或 readme 文档)。整体看来,它完成的不错。 5.1 ChatGPT 能读懂代码吗? https://lianxh.cn/news/4936433d8b2e9.html
7.检测ChatGPTGPT我用Bard、ChatGPT 和 HuggingChat 生成的内容测试了 Typeset,它准确地检测到了所有内容。 5. Hive Moderation 网址: https:///ai-generated-content-detection Hive Moderation 的 AI 生成内容检测偶尔会将人类生成的内容误认为是 AI。为确保可靠的结果,建议在将其用作主要资源时使用备份工具。AI 生成内容检测提供http://www.360doc.com/content/23/0619/22/1085405986_1085405986.shtml
8.在手机上轻松使用ChatGPT:一站式教程·构建你的智能应用,使用蓝集成ChatGPT API:获取OpenAI的API密钥并将其集成到你的应用程序中。确保API调用的安全性,在服务器端处理关键数据。 用户界面设计:根据用户需求设计简洁、高效的用户界面。考虑到移动设备的特点,尽量减少用户输入步骤,提高交互效率。 测试与部署:开发完成后,需要进行全面的测试,确保在不同型号的手机上都能正常运行。最后https://docs.lanyingim.com/news/easy-use-chatgpt-mobile-39-20240713-2-11-1720868646.html
9.校验ChatGPT4真实性的三个经典问题:快速区分GPT3.5与GPT4,并提现在已经有很多 ChatGPT 的套壳网站,以下分享验明 GPT-4 真身的三个经典问题,帮助你快速区分套壳网站背后到底用的是 GPT-3.5 还是 GPT-4。 大家可以在这个网站测试:https://ai.hxkj.vip,免登录可以问三条,登录之后无限制。咱们使用免登录的额度测试就已经够用了 https://www.cnblogs.com/hashtang/p/17784620.html
10.ChatGPT聊天体验本篇整理一下近几天与ChatGPT对话的记录,在理解人类语言这个层面上(AI语言模型都是概率论统计学基础上的模型,所以它的理解主要是统计学意义上理解,而不是感知和推理上的理解),的确达到了相当高的水平,自然流畅对话不在话下,当然也远不是无所不能,还是有一些不足与局限。我们讨论了与ChatGPT相关的一系列https://www.jianshu.com/p/51fa9082494f