刚看完DeepSeekR1技术报告论文《DeepSeek-R1:强化学习驱动的大语言模型推理能力提升》,这篇论文最令人震惊的点在于:
DeepSeek-R1-Zero作为一个完全没有使用任何监督微调(SFT)数据,仅通过纯粹的强化学习(RL)训练的模型,展现出了惊人的推理能力,推理基准测试上可以媲美乃至超越OpenAI的o1系列模型(如o1-0912),完全开源,报告毫无保留的奉上了R1的训练秘密,值得注意的是,这是第一个开放研究验证了LLM的推理能力可以完全通过RL来激励,而不需要SFT。这一突破为该领域的未来发展铺平了道路
具体来说,以下几点尤其令人震惊:
纯RL的成功:以往的模型在提升推理能力时,通常依赖于SFT作为预训练步骤。DeepSeek-R1-Zero打破了这一常规,证明了仅通过设计合适的奖励机制和训练模板,就可以让模型在没有SFT的情况下(冷启动),通过自我博弈和进化,自发地学习到复杂的推理策略,这让我想起了AlphaZero--从零开始掌握围棋、将棋和国际象棋,而无需先模仿人类大师的棋步,这是整个技术报告最重要的启示
惊人的性能提升:DeepSeek-R1-Zero在AIME2024基准测试上,pass@1分数从15.6%提升到了71.0%,通过多数投票更是达到了86.7%,与OpenAI-01-0912的表现相当甚至更好。这种巨大的性能飞跃仅仅是通过RL实现的,这非常令人震撼。
“顿悟”现象(AhaMoment):论文中描述了DeepSeek-R1-Zero在训练过程中出现的“顿悟”现象,模型会自发地重新评估之前的步骤,并进行反思,类似于人类的“灵光一现”。这种自发涌现的复杂行为,展示了纯RL训练的巨大潜力,也为理解AI的学习机制提供了新的视角
无监督学习的潜力:DeepSeek-R1-Zero的成功,证明了无监督或弱监督学习方法在提升模型推理能力方面的巨大潜力。这对于那些难以获取大量高质量标注数据的领域来说,具有重要的意义
除了之前提到的DeepSeek-R1-Zero仅通过纯强化学习(RL)展现出惊人推理能力之外,我还注意到以下几个同样令人印象深刻的点:
1.蒸馏技术有效提升小型模型能力:
2.对比实验揭示了蒸馏的优势:
坦诚的失败尝试分析:
对未来研究的启示:对失败原因的分析,也为未来的研究提供了启示,例如指出了PRM在定义细粒度步骤和判断中间步骤正确性方面的困难,以及MCTS在扩展到语言模型时面临的搜索空间爆炸和价值模型训练难题