ChatGPT的持续爆火,早已让各大科技公司坐不住了。
就在刚刚过去的一周,Meta「开源」了一个新的大模型系列——LLaMA(LargeLanguageModelMetaAI),参数量从70亿到650亿不等。因为LLaMA比之前发布的很多大模型参数更少,但性能更好,所以一经发布让很多研究者兴奋不已。
参数量的减少对于普通研究者和商业机构来说都是好事,但LLaMA真的像论文中说得那样表现那么好吗?和当前的ChatGPT相比,LLaMA是否可以勉强一战?为了解答这些疑问,有些研究者已经对这一模型进行了测试。
还有公司已经在尝试补齐LLaMA短板,想看能不能通过添加RLHF等训练方法让LLaMA表现更好。
LLaMA初步评测
作者在RTX3090/RTX4090上运行LLaMA7B/13B版本,在单个A100上运行33B版本。
需要注意的是,与ChatGPT不同,其他模型并不是基于指令微调,因此prompt的结构有所不同。
解释笑话
这是谷歌原始PaLM论文中展示的一个用例:给出一个笑话,让模型来解释它为什么好笑。该任务需要将世界知识和一些基本逻辑相结合。PaLM之前的所有模型都无法做到这一点。作者从PaLM论文中提取了一些示例,比较了LLaMA-7B、LLaMA-13B、LLaMA-33B与ChatGPT的表现。
不过,ChatGPT起码get到了关于Schmidthuber的笑话。但总的来说,这些模型在零样本笑话解释任务上的效果与PaLM相差甚远(除非PaLM的示例是精心挑选)。
零样本分类
作者考虑的第二项任务更具挑战性——标题党(clickbait)分类。由于连人类也无法就什么是标题党达成一致,作者在prompt中为这些模型提供了一些示例(因此实际上是小样本而非零样本)。如下为LLaMa的prompt:
很明显,赢家为LLaMA-33B,它是唯一一个能够遵循所有请求格式(yes/no)的模型,并且预测合理。ChatGPT也还可以,但有些预测不太合理,格式也有错误。较小的模型(7B/13B)不适用于该任务。
代码生成
虽然LLM擅长人文学科,但在STEM学科上表现糟糕。LLaMA虽然有基准测试结果,但作者在代码生成领域尝试了一些特别的东西,即将人类语言零样本地转换为SQL查询。这并不是很实用,在现实生活中直接编写查询会更有效率。这里只作为代码生成任务的一个示例。
在prompt中,作者提供表模式(tableschema)以及想要实现的目标,要求模型给出SQL查询。如下为一些随机示例,老实说,ChatGPT看起来效果更好。
加入RLHF,初创公司NebulyAI开源ChatLLaMA训练方法
虽然LLaMA发布之初就得到众多研究者的青睐,但是少了RLHF的加持,从上述评测结果来看,还是差点意思。
在LLaMA发布三天后,初创公司NebulyAI开源了RLHF版LLaMA(ChatLLaMA)的训练方法。它的训练过程类似ChatGPT,该项目允许基于预训练的LLaMA模型构建ChatGPT形式的服务。项目上线刚刚2天,狂揽5.2K星。
ChatLLaMA训练过程算法实现主打比ChatGPT训练更快、更便宜,我们可以从以下四点得到验证:
更是有研究者表示,ChatLLaMA比ChatGPT训练速度最高快15倍。
不过有人对这一说法提出质疑,认为该项目没有给出准确的衡量标准。
项目刚刚上线2天,还处于早期阶段,用户可以通过以下添加项进一步扩展:
NebulyAI希望更多人加入进来,创造更高效和开放的ChatGPT类助手。