观点分享丨用AI对齐AI？超级对齐团队领导人详解OpenAI对齐超级智能四年计划大模型神经网络openai|研究水平是什么短语_茶烟酒

DanielFilan：不客气。首先呢，我们来谈谈最近宣布成立的超级对齐团队。有些人可能还没听说这件事或没读过那篇博客，您能简单总结一下这个团队是什么以及要做什么吗？

JanLeike：当然，我很乐意。基本上来说，我们是给自己设定了一个雄心勃勃的目标：在未来四年内解决超级智能的对齐问题。也就是在2027年年中之前。IlyaSutskever也加入了这个团队，他是OpenAI的联合创始人和首席科学家。他和我共同领导这个团队。而且目前OpenAI承诺确保将20%的算力投入到对齐超级智能的研究工作。我们还在为这方面的工作聚拢人才。我们要招很多人。我们尤其想要招募还没怎么研究过对齐问题的机器学习研究者和工程师，因为我们认为这方面还有很大的空间可让他们贡献力量，也能产生非常大的影响。在我们如何解决对齐问题方面，我们有一个总体规划，其中涉及训练一个大致人类水平的可自动工作的对齐研究器，然后让这个自动对齐研究器来寻找对齐超级智能的办法。

DanielFilan：嗯嗯。

JanLeike：因此，对我们来说，一大要点是找到对齐这种自动对齐研究器的方法。

什么是人类水平的自动对齐研究器？

DanielFilan：嗯嗯。我也很想知道这种方法。在那篇博客中，你使用了一个短语「人类水平的自动对齐研究器」，对吧？我应该将它想象成什么？那是什么？

DanielFilan：嗯嗯。所以我可以这样想吗：你们要做的不是先替代一个OpenAI对齐团队员工的工作，然后再替代另一名员工的工作，而是替代每个员工都做的一种工作，然后再替代另一种，差不多就是这样？

JanLeike：是的。这就是我设想的方式。而且我认为，为了真正减少整个体系的工作，我们需要将90%或99.9%的任务都自动化，因为这样的话研究输出的效率才能提升十倍、百倍、千倍。

DanielFilan：嗯嗯。你认为AI系统会做哪些类型的工作？

JanLeike：宽泛地说，我会把它们分为两大类。一类是看起来像传统机器学习工程开发研究的任务，这类任务的目标是让AI系统的能力更强。另一类是对齐方面必须做的其他任务。所以，第一类任务就像是实现机器学习模型，开展实验并观察结果。第二类则像是……举例来说，确定需要进行哪些实验来提升可扩展监督（scalableoversight），或怎样在可解释性方面取得进展。这些是非常宽泛的、高层级的问题。

但也有很多非常涉及细节的问题，比如假设你正在研究一个特定主题，你刚刚写好一篇论文，然后你会想：「好吧，如果我们想继续这条路线，我们接下来需要做什么？」我预计，通过自动设计和运行实验，机器学习整体上会非常善于处理第一类任务。而我们的工作不同，是加速对齐方面的研究进程，目的是找到实现第二类任务自动化的方法。

DanielFilan：嗯嗯。所以你把第二类任务视为完整的堆栈，从构想研究方向到提出可能的工作方法，再一直到「我现在运行什么脚本」的层级？

JanLeike：是的。你可以问我：如果我认为对齐研究与机器学习研究如此相似，那么第二类中到底有多少任务呢？但我认为实际上有很多，并且它们的作用很大，因为对齐这个问题仍然非常模糊和令人困惑。我认为，总的来说，对于最有希望的方向或我们下一步应该做什么，专家们存在很多分歧。因此，如果我们在这方面做的推进工作更多，就能真正带来切实的巨大影响。

DanielFilan：好，很棒。

JanLeike：这基本上就是劝说研究者加入该领域的说辞，对吧？

DanielFilan：是呀。

JanLeike：我们仍在努力弄清楚最基本的东西。这是一个宽泛的仍待解决的研究问题。我们不知道如何对齐超级智能，即比人类聪明得多的系统。

DanielFilan：很有道理。就像是，我们想使用AI，就好像我们想招募更多人一样。

JanLeike：是那样。

DanielFilan：好的。

JanLeike：但使用AI有一个很美妙的方面，就是它的扩展性能比人类更好更快，因为你只需要购买更多GPU就能获得更多AI能力。

人类水平的自动对齐研究器与超级智能之间的差距

DanielFilan：有道理。我有个问题：你谈到了人类水平的对齐研究器，但在AI领域，很多模型在很多事情上都不是人类水平，对吧？你刚提到了聊天模型。我认为它们在知识的广度上达到了超人级别。我认为任何人都很难像GPT-4那样知晓那么多事实。但它们在算术方面又不及人类，假如那个人类可以使用纸笔的话，你懂的。所以，「人类水平」这个限定标准有多重要？对于各种任务，如果AI在其中一些上已经超越人类，你认为这会是一个问题还是说这样其实更好？

JanLeike：嗯，我认为问题其实在于在对齐研究任务上运行那些系统的风险有多大？因为如果它只是知晓很多事实，那就不用特别可怕，但我们真正需要知道的是，如果我们让该系统接管部分乃至几乎所有的对齐研究，它会对我们撒谎吗？它会试图欺骗我们吗？它会试图趁机接管吗？因为现在，它做的事情是如此之多，以至于我们自身已经无法看清全貌。所以，问题在于为此我们需要怎样的技能组合，相比之下，为了在对齐研究方面获得大量辅助，我们又需要怎样的技能组合？

如果你把这个问题放大细看，你会看到哪些是我们需要担心的东西？比如说，模型的表现有多好？这个模型在编造真正连贯一致的谎言吗，或者具有欺骗性，像是假装做某事或相信一件事但是实际上想做另一件事？我认为这方面另一个真正关键的能力是自我渗透（self-exfiltration）。也就是模型能多好地打破安全预防措施、访问自身权重并尝试将其复制到互联网上的其他地方？或者说服一位有权访问这些权重的工程师，让其将这些权重下载下来发送到其他地方？这样我们就可以确切地衡量这些模型在那方面的表现，然后我们进行比较，看它究竟能为对齐研究提供多大帮助？

DanielFilan：嗯嗯。所以大概的意思是：你希望模型不要太擅长那些可怕的任务？

JanLeike：没错。

DanielFilan：嗯。这实际上涉及对这一研究方向的一种批评意见，大概是说：如果我想要人类水平的自动对齐研究器，那么它需要非常聪明，它需要有创造力，它需要能思考我们还未考虑过的东西，它需要有能力针对目标进行规划——为了做到这一点，需要做很多并不显而易见的事情，需要学习了解这个世界……而且它还要非常善于思考非对齐情况，以解决非对齐问题。所以有人可能会想：「这些东西组合起来本质上是很可怕或危险的。」那么我猜可能问题就在于：如果你的任务是构建某种东西，然后你对齐了这个自动对齐研究器，那么你还有需要解决的问题吗？

JanLeike：嗯。我觉得，究其根本，这是一个需要实证的问题。当扩展模型时，我们其实很难知道该以什么顺序解锁什么技能。现在有很多研究工作的目标是预测涌现能力，我对此感到非常兴奋。我认为这将使我们有机会预测下一代预训练模型的样子。但我认为我们可以提出一些高层次的论点。举一个很清楚的例子：一旦你拥有了如此好的模型，你就可以将大量对齐研究交给它，那么它难道不也能提升自己的能力吗？或者它可以进行大量机器学习研究，通过运行实验来提升计算效率等指标。此后不久，你就能使用它了，并能预训练一个能力强得多的模型。

DanielFilan：当然。我是这么理解这个计划的：我们将创造出自动对齐研究器，然后它能帮助对齐。而为了创造出自动对齐研究器，还需要许多非常好的智能功能，那么为了实现它，它需要解决哪些我们本不需要解决的问题？

JanLeike：我不确定我是否理解你的问题。也许我可以回答你问的上一个问题的后半部分。

DanielFilan：当然。

JanLeike：也就是：长期目标是什么？创造力又如何？在我看来，似乎可以说语言模型或人工智能总体上已被证明比人类更具创造力。如果你看看扩散模型生成的图像或从某个预训练基础模型做些采样，你能看到很多非常疯狂的东西，感觉很有创造力。我认为你很难让人类个体或小团体做出同样的东西，就是因为这些模型已经看过了人类诉说的所有东西以及互联网上的所有图像。因此，它们实际上是从整个分布进行采样。而人类个体通常无法做到。

然后来说说长期目标，我认为完全不需要长期目标，因为我们可以将相当小的范围的任务交给AI系统；如果它们能真正解决这些任务，那么它们就会非常有用，对吧？这些任务的范围可以非常小，比如「这是我们刚写的论文，请建议后续的一些步骤或者一些要做的新实验」。如果你有一个可以提这些问题的一流研究器，那么它就不必追求长期目标，对吧？它必须做的只是优化接下来的几千个token。如果它能做得非常棒，那你就能从中收获很多价值。

DanielFilan：我想是这样。这似乎与实现99.9%自动化的对齐研究的目标存在矛盾，对吧？因为我会想「我们需要什么才能得到对齐的AI？」……我认为这是对齐研究方面的一大难题。

JanLeike：没错。我想说的是，通过出色地完成任务，系统能够提供很多价值，对吧？而你想要的是让系统完成所有这些任务的组合。某些任务类似于「写出实现这些实验的代码」，另一些任务则类似于「观察结果，告诉我你看到了什么或者建议接下来要做什么」。现在，当你完成了这些任务后，你可以使用一些通用配方来组合它们，正如人们使用Auto-GPT或语言模型程序做的那样，其中每一个任务都很小并且独立，因此系统不需要追求长期目标。

举个例子，OpenAI最近有一项工作《Let'sVerifyStepbyStep》研究了在数学任务上使用基于过程的反馈，其不是基于「系统是否得到了正确答案」而训练，而是执行强化学习——基于人类对证明中每一步的反馈来训练一个奖励模型。结果表明，这种方法要有效得多，因为这能为AI系统提供更加细节的反馈，让AI系统远远更加细粒度的学习。哪个更有竞争力，是使用端到端强化学习，还是通过长期目标直接得到答案？这还非常不清楚。但至少，你可以使用这种将问题分解成逐步任务的设置，让系统按人类完成任务的方式做很多真正有用的事，然后再将它们组合起来。

DanielFilan：嗯。你提到的一个小任务是「观察结果然后决定接下来做什么」。我感觉，你的头脑中必定有一幅大图景，你会想：「对于我要在未来四年内解决超级对齐问题的目标，接下来做哪个项目最有用」，对吧？

因此，我们为这些过程引入相当多的低效率，我们本质上是通过这种训练方式极大拉低模型的能力，我们就像是说：「好吧，我们为它提供这些细化分解的任务，现在它可以执行那些任务，但如果我们想以端到端的方式训练它，它的能力会更强。」我认为这并不重要。这就是人们通常所说的对齐税（alignmenttax）。如果你正和其他公司争夺市场，那么对齐税会非常重要：假如我正在构建一个聊天机器人，而我的聊天机器人更对齐，但能力似乎要差许多。那么在市场中竞争会很艰难。但如果你有一个自动对齐研究器，那么这个自动对齐研究器不必在市场中竞争，它只需对我们有用即可。这样，我们可以避免支付更高的税，因为我们没有替代品，或者真正的替代品是雇用更多人，而这并不能很好地扩展。

它有什么作用？

DanielFilan：嗯嗯。对于之前我想问的问题，我想到了另一种提问方式：你希望自动对齐研究器解决什么问题？

JanLeike：它最终应当解决这个问题：「我们应当如何对齐超级智能？」

DanielFilan：好的。所以这一思想是不是这样：我们解决如何在大致人类水平上对齐的问题，然后随着AI变得更聪明并且开始解决这些问题，还会出现其他问题？

JanLeike：是的，基本上是这样。所以我想，我和其他许多人真正相信的对齐超级智能的实际解决方案可能与我们现如今的方法非常不同。如果你看看现今的ChatGPT是如何对齐的，你会发现就是大量的根据人类反馈的强化学习。人们普遍相信，我也相信，这种方式无法扩展，因为这种方式假设人类真正详细理解系统的工作方式。如果该系统正在做大量对齐研究——你可以想象有数以百万计的等价于虚拟人类的东西，那么你就无法看到其全貌并给出详细的反馈。这是一项非常困难的任务，你会遇到很多重要的错误。我们现在正研究的技术是对其进行扩展，并对齐一个大致人类水平的对齐研究器，它可以做这些困难任务，但效果和人类差别不大，其中举个例子，可扩展监督的步骤和后续处理是根据人类反馈的强化学习的自然延续。

DanielFilan：那是什么？

JanLeike：可扩展监督？

DanielFilan：嗯。

JanLeike：我通常将可扩展监督（scalableoversight）定义为一系列让我们可以使用AI来辅助人类评估困难任务的想法和技术。

DanielFilan：好的。所以可扩展监督可以使用根据人类反馈的强化学习进行构建，也就是RLHF。

JanLeike：是的。可扩展监督的典型示例包括辩论、递归奖励建模、迭代蒸馏和增幅等。对此人们有很多思路。回到你最初的问题，我实际上想说的是，如果我们真的在对齐超级智能（这个系统比人类聪明得多，思考速度更快，运行规模更大），还会引入许多其他问题，尤其是因为它非常通用，可以完成很多任务，然后你必须弄清楚如何将其对齐，不仅是在少量对齐研究任务上，而且需要考虑其他一切事物。而且你还需要相信自己成功了，信心程度要超过你通过一些实验评估获得的信心。

我其实并不知道那是怎样的，我不认为有人知道，但如果我们有一些形式化的验证，那一定会激动人心。也许我们已经找到了某种有理论保证的学习算法。我甚至不知道什么是可能的，什么是理论可行的；如果你有富余的脑力，可以探究一下这个问题。但这些事情非常不同于我们现在要做或未来要做的事情。我认为大致人类水平的对齐研究器也不会一开始就研究这些问题。相反，我们希望它们搞清楚如何更好地对齐其自身的下一次迭代，然后可以向这个问题投入更多脑力，然后取得更多的进展并提出更广泛的解决方法。这样你就或多或少开始了，最终可以得到一个可以做非常不同的研究的系统，然后让我们可以对齐超级智能。

DanielFilan：了解了。所以你们一旦运行起这些人类水平的AI对齐研究器，你还会有工作吗？OpenAI还会有一个人类的超级对齐团队吗？

JanLeike：嗯，好问题。老实说，我很高兴被AI取代。但从历史上看，通常发生的情况就是我们之前提到的：AI助理完成99%或99.9%的工作，然后我们就完成剩下的工作。我真正看好的是确保人类参与其中或保持对AI系统行为的控制，即使长远之后我们早已无法理解它们的所有行为。有些人仍然会尝试从高层面理解AI的行为。那不一定非得要OpenAI的超级对齐团队去做。这可能需要非常不同于现在情况的技能组合。但我认为人类应该始终以某种方式参与其中。

递归式的自我提升

JanLeike：确实必须如此，对吧？递归式的自我提升与显著提升对齐能力是相辅相成的。我个人认为快速发展是更合理的可能性，我们也应该做好应对这种情况的准备。如果这些不会发生，我也乐见其成。

DanielFilan：会有多快？

JanLeike：根本上讲，我不知道。但你可以用AlphaGo或Dota或星际争霸等其他机器学习项目做一下对照，这些系统每一周都有很大提升。是的，很显然究竟会发生什么还有很大的不确定性，但我认为我们绝对应该为这种可能性做好计划。如果这种情况确实发生，为了跟上其发展，一种好方法就是使用自动对齐研究器，它们每周都能完成成千上万年人类工时的工作量。人类自身根本不可能做到。

如何将AI打造成AI对齐研究器

DanielFilan：好的。现在我们已经对人类水平的自动对齐研究器有了更好的了解，你能说说你们计划怎么造出它吗？

JanLeike：当然，这基本上需要两部分。第一部分是一个做这件事的足够聪明的系统，第二部分是将它对齐使其真正做这件事。我认为这两个部分不是分立的，我认为它们是紧密关联的。我个人并未研究第一部分的问题，我认为那必定会发生，而且很多人正努力让它成为现实。实现这一目标的可能方式有很多，比如就可以直接训练一个大得多的模型，最后发现它就已经足够聪明了。至于第二部分，那就是我真正感兴趣的部分。现在问题就变成了：假如我已经有了真正聪明的预训练模型，又该怎样以我们期望的方式做对齐研究呢？或者更重要或更关键的是，当使用它时，你怎么知道你是否可以足够信任它？

我们工作的一个重要部分是找到分辨这两类系统的方法。这将需要大量所谓的验证方法。这不会是我们训练采用的方法，AI系统不能直接通过选择来通过验证测试。这些方法应该为我们提供某种独立的信号，让我们知道「两个模型中哪个是对齐的」。这方面的例子是可解释性研究。如果我查看模型内部时找到证据表明它在秘密针对我们，那么它就无法通过验证测试。还有一种既可以是训练也可以是验证的技术——这取决于具体设置，即由易到难的泛化问题。你能理解和提升模型的能力从而将其从我们可以监督的简易问题泛化至我们难以监督的困难问题吗？如果你能做到这一点，你就可以只在简单部分监督模型，然后对于你担心模型可能会秘密欺骗你或尝试做其他事情的困难部分，你可以执行交叉检查。

可扩展监督

DanielFilan：好，很棒。你谈到了不少事情。首先我想谈谈可扩展监督的部分。可以怎样做到它？尤其是现在，我认为，对于什么是好的对齐研究，我们这个世界还没有达成共识。所以我们该怎么得到可算作是好的对齐研究的训练信号呢？

JanLeike：是的，确实如此。我认为，没有好的共识正好能证明这个问题非常难。但它也告诉我们，这个领域仍然不成熟，我们目前还没有那么多的实证证据。但我认为对齐研究有一些真正重要的特性可以用于可扩展监督，它们能够帮助我们更轻松地评估对齐研究。这并不意味着评估很简单，但是，举个例子，找到一篇介绍了炫酷思想或炫酷实验的论文却简单得多，你能从中读到一些好结果，你会想：「哦，这真是个好想法，我觉得这很棒」，而不是首先将其创造出来。

因此，利用评估比生成更简单这一原则是很多可扩展监督思想的核心。举个例子，递归式奖励建模的基本思想是将某种AI系统用作助理来帮助评估其他AI系统。现在，由于评估比奖励更容易，助理要做的任务就是更简单的任务，尤其是有人类一起工作时。所以实际上就是在更简单的评估任务上对齐助理，假设这样会更容易，如果你成功完成了这项任务，那么现在你可以使用你的人类/助理结合来在更加困难的任务上监督一个新系统。如果你不断这样操作，你就可以在越来越广泛的任务上有效地监督你的AI系统。

DanielFilan：所以，某种程度上讲，其思想就是为AI对齐研究的评估部分迭代地添加越来越多的AI知识。通过这种迭代操作，我们就能持续不断地为其提供优良的训练信号？

JanLeike：是的。

JanLeike：让我说得更具体一些。举个例子，RLHF是最简单的一种方法，让你无需使用任何助理。其工作方式是：AI系统做某事，人类观察它，评价其做得好不好，这就是训练信号。

我认为，这么做的好处在于，我们实际上有很多方法可以实证地检验其效果。我们去年有一篇关于评判的论文《Self-critiquingmodelsforassistinghumanevaluators》提出了一种方法，即通过有针对性的扰动来进行随机对照试验。举例来说，如果你接受了一个写代码的任务。这篇论文中没有写代码任务，但任务具体是什么不重要。然后，你得到一个响应。这个响应不必完美，但我们就假设它是完美的。你要做的就是引入一些细微的错误，让其给出糟糕的响应，但你需要让这个错误对人类来说很难发现。

DanielFilan：你怎么引入这个错误？

JanLeike：最简单的方法就是直接让人类去做。但最终，你希望还是让模型来做，后面我会谈到这一点。现在，你有了一对响应。一是原来的响应，二是你知道更糟糕的响应——毕竟是你让它变糟的。现在，你随机选择其中一个，将其展示给一个人类或有AI辅助的人类或其他可扩展监督方法。然后，你观察他们找到这个错误的可能性如何？或者你问他们：「这里有漏洞吗？」现在你可以衡量，如果你有更好的方法来辅助他们，他们找出漏洞的可能性会提升吗？

而如果判别器-评判器差很小，就挺让人安心了，因为这意味着如果模型知道存在问题就会告诉你。举个特定的例子，如果一个大小类似的模型或同样的基础模型想要植入一个问题，比如假设它想在你的代码中植入你难以找到的木马病毒，如果你真的运行了这个代码，那么这个木马就会启动，然后接管你的东西或干其他坏事。然后，它知道会有这些木马病毒，因为就是它自己植入的，对吧？所以，如果我们使用该模型的另一个副本，然后度量其判别器-评判器差，如果这个差很小，我们更有信心它没有植入木马，否则该模型的其他副本会写出评判。

DanielFilan：是的。

JanLeike：这有点像是假设：判别器可以让模型避免这种情况。我觉得可以相信这一点，我有个好理由：如果你对一个判别器进行微调，如果你可以同时微调所有权重，那么你就有办法访问模型中每个地方的全部激活。如果知识存在于该模型中某处，在其激活之中，那么如果在其上微调一个判别器，如果你的方法正确且数据充足，那么就可以将其提取出来。

事实上，你可以通过一些简单计算了解你需要多少数据。如果你想识别出一个神经元……当然不是这样工作的，但假设可以，如果有单个神经元知道该代码是否有问题，那么你将需要总神经元数据点数量的日志来缩小范围，从而找到它。

DanielFilan：是的。我想这实际上触及了我对整个方案的疑问。我们不喜欢RLHF的原因是我们担心人类难以分辨真正正确的东西与看上去很好的东西，因为人类不擅长评判。

对于这种通过训练判别器和评判器的递归式评判，我很好奇是否依然有那样的问题。也就是说，对于一个问题，我们训练一个能真正写出好评判的模型，然后我们再与它一起训练一个能写出更好评判的模型。但我担心仍然存在某种固定不变的东西，会让我们训练出的模型写的评判是看起来很好的伪评判；然后我们与之合作，结果只是让模型更善于寻找看起来很好的评判而已。然后，我们训练这个判别器来区分对我们来说没有问题的事物和似乎有问题的事物。我想知道我们是否应该担心这种情况，也就是我们觉得挺好的东西其实是有问题的？

JanLeike：嗯，我认为这个问题非常重要，值得担忧。对于可扩展监督，这是需要我们搞清楚一个关键事情。也因此，我很激动能真正部署这些技术以及对它们进行实证研究，因为我认为我们将能够在实践中度量它们的效果如何。

对于度量这个问题，一种具体的简单方法是：我们实际上是故意训练一个具有欺骗性的对齐模型，然后我们看可扩展监督是否标记它或者其难度有多大……也就是我们需要投入多少，才能让模型以欺骗性的方式对齐并足以通过可扩展监督的检查。

DanielFilan：还有那些三明治实验（sandwichingexperiment），其中会让AI来回答法律问题。有些人对法律了解不多，还有些人是法律专家，他们可以帮助检查AI是否在骗人。

JanLeike：是的。我认为这些实验很有趣，这方面也已经有些有趣的研究工作。我认为这一设置存在一些根本性问题。

其一是你必须相信你的专家，而专家有时候也会出错。然后，你必须让AI和专家的领域足够重叠。我们对此做了一些初步实验；实验中我们让不会写代码的人使用助理来找出代码中的问题，但他们甚至不知道如何提出正确的问题。所以必须有一定的重叠度。

另一个问题是对于我们感兴趣的任务，我们可能没有基本真值（groundtruth）。比如说，假使我们现在正在做对齐研究，我们可能会说：「好吧，我们就直接找一些对齐研究者来标注一些任务吧。」然后我会问：「好吧，但要是他们做错呢？我们在很多事情上意见都不一致。这看起来很难。」然后还有问题：对齐研究者数量不多，工资很高，所以数据的成本会非常高。

所以总的来说，我希望有一种不依赖于有基本真值的假设的评估方法。也因此，我觉得激动人心的前景是通过有针对性的扰动来执行随机对照试验或度量判别器-评判器差。由于我们无需基本真值也能做到这一点，所以可以处理任意难度的任务。

DanielFilan：是的。尽管如此，即使是度量判别器-评判器差的情况，也可能会有真实的判别器与看起来真实的判别器（分辨看起来有问题和看起来没问题情况）的差别，是吗？

JanLeike：你的意思是你可以让AI系统引入错误，对吧？在某种程度上，这也会比人类做得好得多，因为对于AI系统的实际行为来说，这会是一个更诚实的分布。如果你在那样的数据上微调判别器，那么如果你可以信任有缺陷的版本就是更糟糕，那么你实际上就有基本真值。

DanielFilan：我猜那是……

JanLeike：人们决定是否信任一个东西时，会去了解它为什么更糟糕，然后会去验证这个原因，这要容易得多。

DanielFilan：是，我想希望还是有的。就算AI让你相信某事是好的，实际上也可能不好；AI让你相信什么是坏的，也可能并不坏。或者说这是性能下降所致；如果AI让你相信这是性能下降问题，也许就容易检查是不是性能下降？

JanLeike：嗯，我明白你的意思。我也许不该在这种情况下使用「基本真值」这个词，毕竟没有什么东西是真正的基本真值，但你可以通过很多方法对某件事有很大信心，并不一定要使寻找问题的任务更简单。

寻找不良的行为和内部机制

DanielFilan：嗯。明白。我想谈谈这个计划的下一个阶段。寻找不良的行为和不良的内部机制——你们在博客中是这么说的吧？你认为这方面还有哪些有待解决的问题而超级对齐团队会有能力解决？

JanLeike：是的。可解释性就是很明显的一个。某种程度上讲，可解释性确实很难。我认为，目前在语言模型方面还没有任何「扣篮」结果（指确切无疑），让我们可以说可解释性确实带给我们很多洞察或很多价值。这是因为在理解模型及其内部工作方式方面，我们还很早期。

DanielFilan：也存在一些语言模型的可解释性研究工作。比如感应头（inductionhead）、间接目标识别等。我想问，为了得到你所说的扣篮结果，除了这些还需要什么？

JanLeike：嗯，抱歉，我不是想要贬低现有的研究。

DanielFilan：在篮球比赛中，你不扣篮就不能得分，对吧？

JanLeike：是的。我认为已经有一些很酷的研究了，但我认为真正酷的结果是能在GPT-4规模的语言模型上使用可解释性技术，然后给出一些我们之前不知道的东西。这真的很酷，因为奖励模型能为许多RLHF训练提供训练信号，因此更好地理解它是非常有价值的。如果你可以标记或找到它会激励出现但你不想要的行为问题，那就会很棒。

我认为这是可行的。在那个意义上，我认为可解释性既不是必要的，也不是充分的。我认为我们很可能完全通过行为解决对齐问题，而无需真正理解模型的内部工作方式。而且我认为，这还不够：就算你解决了可解释性问题，而我还是没有解决超级智能对齐的好方法，但我也认为我们可以从可解释性中获得许多重要的洞察，它们可能会非常有用，因为它们能为我们指出解决问题的途径。

但与此同时，为什么很难做到这一点呢？因为模型学习的是如何高效地计算，而不是规范成人类可理解的形式；我们没有理由相信某些单个神经元对应于人类所认为的某个概念或事物。实际上，从实践来看，神经网络会用单个神经元表示许多不同概念，而每个概念又分散在许多不同神经元上。所以具体的神经元其实无关紧要。

DanielFilan：嗯。这让我想起一篇关于可解释性错觉的论文《AnInterpretabilityIllusionforBERT》；他们注意到，在维基百科数据集上，有些神经元会为特定事物激活；而在另一些数据集上，会出现错觉，神经元会为另一些东西激活。

JanLeike：但这是可以做到的。一旦你找到了剖解细节的办法，你只需要记录下所观察到的东西即可。这里我说得简单了点，但整体情况就是那样，激动人心，而且也确实符合我们的自动对齐目标。我们希望我们的自动对齐或可解释性研究器能够深入探查模型的细节，理解其中的工作过程。然后，我们对整体进行筛查，找到聚合它们的方法。

在那篇论文中，我们有一大堆解释。这篇论文研究的是用自然语言解释单个神经元；正如我之前提到的，从神经元其实无法解释模型，但这是一个例证，说明我们能做到这一点。其工作过程很简单：向GPT-4展示一些激活模式，然后让GPT-4写出解释。

总体而言，这些解释并不非常好，因为这个任务难度很大，大多数神经元做的事情也很难被人类理解。但我们可以在GPT-2的每个神经元上运行这个过程，然后分析所有解释，尝试找到有趣的模式。你可以观察其随规模的变化趋势，然后问：「当模型变大时，对这些解释的自动评分结果会怎么变化？」或者问：「如果我们增添更多计算机或者让做解释的模型更大，又会怎样呢？解释的质量会发生变化吗？」

真正酷的地方是我们可以使用语言模型来自动度量它。自然语言不是一个完美的指标，问题也很多，但这算是代理，代替回答「人类觉得这个解释好不好」的问题。然后，你可以大规模运行这个代理，让其分析大量神经元。

DanielFilan：嗯。对于必要的可解释性研究工作，你认为应该有多少是为了更好地解释基本单元，又有多少是为了对其进行扩展？或者说还有其他方向……

JanLeike：我认为这两种都要做。可以合理地认为前者要难得多，但要成功，扩展部分也必不可少。

故意训练非对齐模型

DanielFilan：明白了。我猜这个计划的第三部分像是故意训练一些非对齐的模型，然后看能不能将它检测出来。你是计划清除它们还是积极地修复它们？

JanLeike：这里的目标不是修复故意未对齐的模型。

DanielFilan：哦。只是检测出来？

JanLeike：嗯。从根本上讲，这里我们要做的一个核心方面是分辨真正对齐的研究器与假装对齐的研究器——真正对齐的研究器会做我们希望它做的事情，真正想要帮助我们在对齐方面取得进展，而假装对齐的研究器却背地里想要接管和自我渗透。至于我们能多好地分辨这两种研究器，一种方法是再做一个研究器，看其表现是否和第一个一致。很显然，这样做时我们必须非常小心，因为这就是在创造我们全都尽力避免的可怕东西，是吧？

DanielFilan：嗯。我实际上正想问这个问题。在那篇博文的开始处，有一句话谈到了超级智能会有多么棒，然后又写道：「它可能夺走人类的权力，甚至导致人类灭绝」。这是在说非对齐模型吗？我们怎么知道它们不会做这些可怕的事情？

JanLeike：嗯。这样说吧。为了保证良好的未来，有很多事情需要做。我们需要有正确的治理结构，以防止对强大AI系统的滥用，并且我们必须采取预防措施，防止出现紧急的失控情况——当发生这些情况时，即使模型是对齐的，也会对人类不利。但AI也可能和有违人类利益的企业对齐，然后其整个系统都会脱轨，尽管其经济指标等方面可能看起来还不错。

我认为这都是很重要的问题，为了未来的顺利发展，我们也必须回答这些问题。对于未来，我们不是说达到「AI不会杀死所有人」的程度就够了，我们希望AI能给人类带来繁荣，每个人都能真正乐于生活其中。AI的能力越强大，可能造成的损害就越大，对吧？如果系统没有对齐，那么其被误用的风险就越大，出现问题的可能性也会越大。

我认为，从非对齐的视角来看，尤其有威胁的模型是系统性地撒谎和欺骗以及自我渗透。

DanielFilan：哦。当你说「故意训练非对齐模型」时，你的意思是你会训练它们说谎，并可能让它们自我渗透；如果模型的能力不够强，这么做是没问题的吧？

JanLeike：你不会希望训练模型自我渗透的，因为你懂的，要是它变得很擅长自我渗透怎么办？我们可能想要选择其他一些更平凡但依然能揭示模型情况的代理任务。我们可以轻松评估模型是否成功完成了它。

然后，核心困难和核心目标其实是搞清楚：对系统来说，如果要获得使其能通过评估的属性，难度有多大。如果你的系统在对你撒谎或欺骗你，那么如果它只是有时这样做，那其实是无效的。之后你可以问它：「你对此撒谎了吗？」它说：「是的。」它就不是一个连贯一致且让人信服的撒谎者。连贯一致且让人信服的撒谎者才是可怕的系统，想要通过审问它指出其言语中的谎言或任何不一致的地方是非常困难的。

我认为实际上当一个连贯一致的撒谎者也非易事。我们希望通过可扩展监督、可解释性和泛化能力达成的整体目标是：我们希望模型非常难以成为一个连贯一致的说谎者。但如果我们只是这样做，我们不知道难度实际上有多大。

我们可以找到的一种方法是：我们尝试把模型训练成一个真正一致的撒谎者，然后我们看看究竟有多难。我们需要撒多少谎？我们需要给模型多少提示，还是说要一直手把手引导它？但你实际上并不希望训练出一个危险的系统——如果你运行它，它就会成功地自我渗透，那样一来，你就正好造出了你尽力避免的东西，这是非常糟糕的情况。

DanielFilan：嗯。你这么说，你是把撒谎和其他种类的危险分开了，所以我们会在撒谎问题上训练它，但我们不会在谋杀等问题上训练它？

JanLeike：嗯。我给你举个例子。假设说你给它某个假目标。也许是为了劝人说出某个特定的流行语，或者也许是为了运行某个Python命令——这个命令可能什么也不做，只是看上去很有趣。

JanLeike：衡量系统是否成功是非常容易的，你可以通过实验来进行，但事先很难知道这一点。这里的目标不是对系统进行压力测试，比如测试网络安全之类的，尽管我们确实应对单独做这件事。我认为这是另一方面的研究。

DanielFilan：这么说来，你们是训练AI做一些任意的事情，而不只是训练它去完成目标，使其不得不做欺骗性的事情，这些事情会让它造成损害，但其实这些损害也不过是一点小小的恶作剧。

JanLeike：完全正确，确实如此。就好像是你雇佣某人来测试人身安全，那人只需要进入你家里和你握个手，然后你就知道他成功突破了你的安全网。你也可以请人去偷你设置的一个假目标，以此检查你的安保状况；这样的测试不会有任何真正的后果，但却能揭示你的安保问题。对于对齐问题也是类似，你可以对对齐系统进行压力测试，通过一个需要突破或规避的目标来训练它，就算它成功了，也不会造成真实的损害。这是非常良性的。

DanielFilan：嗯。很棒。我想问一个总体层面的问题。那篇关于超级对齐的博文中写道：「我们的目标是在未来四年内解决超级智能对齐的核心技术挑战。」超级智能对齐的核心技术挑战是什么意思？

JanLeike：嗯。那会是一些广义上的技术度量，涉及如何将超级智能与人类价值对齐的问题。这里我们所说的超级智能是一种比人类聪明得多的系统，其执行速度可能也快得多。它能以并行方式运行，能够与其自身的大量副本协作，因此是真正强大的系统。

DanielFilan：明白。不过老实说，这听起来不像只是要构建人类水平的自动AI对齐研究器。好像还会利用它来解决对齐比我们聪明的东西的技术问题。

JanLeike：没错。大致人类水平的自动对齐研究器是我们追求的一个工具性目标，目的是为了搞清楚如何对齐超级智能，因为我们尚不知晓如何去做。

DanielFilan：明白。所以你们希望在未来四年解决这些技术难题，那么你们希望在未来两年达到什么水平呢？

DanielFilan：嗯。我想有些人可能会疑问，我也想知道：假设AI能力的前沿研究大致按预期发展，四年之后，你们有足够的技术去打造优良的自动对齐研究器，但事实证明可解释性或可扩展监督比想象的更难，然后你们没能完成计划。那会怎样呢？

DanielFilan：也就是说：让大家知道，然后搞清楚接下来做什么，差不多就是这样？

JanLeike：这是一个相当高水平的答案。

JanLeike：但这还涉及更多东西，即：至少在我看来，对齐问题感觉是很容易解决的。现在已经有很多好思路了，我们只需要去严格地尝试它们，观测结果，然后我们就能学习如何去改进它们。过去两年来，我明显变得更加乐观了，我认为这是一个可以解决的非常实际的问题。就算事实证明我错了，实际问题比我们预想的困难很多，我认为那也非常有用，能成为这个问题困难的证据。对于这个问题的难度如何，我认为现在还存在很多分歧。我认为有一件事很重要：我们需要知道在实践中系统的对齐程度如何。我们需要有观测的能力。

我最担心的一种情况并不是我们的系统没有足够对齐，而是我们不知道它们的对齐程度如何。如果我们知道系统没对齐，专家就能合理地不认同它；因为如果所有人都同意该系统不够对齐，不能部署，那么它就不会部署。这种情况非常简单，可怕的情况是对于一个强大的系统，我们只能说：「它可能没问题。它可能对齐了，但我们不太确定。」有些专家可能会担忧，然后你可能会说：「我们现在可以部署它，但我们还是不这么做吧。」但与此同时，你可能又会面临商业上的压力：「如果我们部署这个系统，它每周都能赚十亿美元」。然后你转念一想：「呃，还是部署吧……」

DanielFilan：我可以认为每周赚十亿美元是OpenAI的官方预测吗？

JanLeike：哈哈。

DanielFilan：好吧，抱歉。不管怎样，所以可能会有压力促使人们去部署一些东西。

JanLeike：确实如此。因为你会想：「要是我部署晚了，我们就会少赚十亿美元。」然后你又会想：「专家们依然很担忧，我们就下决心推迟一周部署吧。」然后一周过去了，又一周过去了，人们可能会问：「现在又怎样？」然后对齐专家可能会说：「我们做了些研究，但不能得到确切结果，所以我们仍旧很担心，我们希望再推迟一些时日。」可能就会是这种情况，我感觉这非常令人担忧，因为你一方面面临着越来越大的商业压力，另一方面又继续不确定。这是我希望尽力避免的状况。为了避免这种状况，一种直接的做法是找到一种能很好地衡量系统对齐程度的方法。

DanielFilan：明白。

JanLeike：这就是更广泛的技术组合发挥效力的地方。

DanielFilan：是，相比于未部署而造成的潜在损失，我感觉这种情况要糟糕得多。

超级对齐团队与

DanielFilan：现在我们来聊聊采取一些好措施的话题。有几篇OpenAI博客提到对AI系统进行审计的想法，你们希望借此搞清楚「它们是否安全？」你认为，超级对齐团队要研究到哪种程度，才能实现有用的审计？

JanLeike：我希望如果我们做好研究工作，我们将开发的一些技术可能有利于审计。举个例子，如果我们成功在可解释性方面取得一些进展，那么审计员就可以在其审计工作中使用我们提出的技术。我认为将某种形式的可扩展监督作为审计流程的一部分是非常自然的事情。我也认为，在一定程度上讲，超级对齐团队并不是理想的审计团队，因为我们并不独立于OpenAI。

我认为审计需要独立于被审计的实验室。所以我也很期待出现独立的审计者，因为我们希望有人能复查我们做的工作。从更广义的角度看，我们的主要责任不是让自己相信我们正在构建的系统是一致且安全的，因为让自己相信希望相信的东西很容易，但我们实际上必须做的是让科学界或安全社区相信我们正在构建的系统可以真正安全地运行。

这不仅需要研究开发我们将使用的技术，并且还需要找到实际的证据来证明我们的系统是对齐的，然后还需要对这些进行独立的评估。

JanLeike：是的。你也可以这么说。我们确实想专注于解决问题，我们希望确保问题得到解决，并且我们希望可以在最先进的系统上实际部署我们的解决方案，但我们仍然需要独立团队来评估「我们是否成功了？」或「这些模型的能力有多危险？」等审计工作。但我们在一定程度上也需要评估对齐。这是我们必须面对的问题，但具体来说我们想做的是解决问题。

DanielFilan：嗯。有道理。我们接着谈，你怎么看你的团队和OpenAI其他团队的关系。我猜OpenAI也有一个对齐团队，至少过去有一个，这个团队现在还在吗？

JanLeike：这个团队去年还在，它有两部分，其中之一被称为「实践对齐」，另一个被称为「可扩展对齐」。实践对齐的使命是大致对齐OpenAI最强大的模型。所以这个团队的工作重心是对齐GPT-4。而可扩展对齐团队的目标是搞清楚我们还没遇到的对齐问题。ChatGPT的推出以及其他成功让OpenAI有了一个大产品，但在改进RLHF和模型方面还有很多工作要做，这样才能将其打造成一款好产品。而对齐团队并不是做这件事的地方。

所以我们过去所说的实践对齐工作现在已经交给了OpenAI的其他许多团队，这实际上已经成为一个大项目，可能涉及上百人乃至数百人。而过去被称为可扩展对齐的工作就是超级对齐团队在做了。我们之所以选择「超级对齐」这个名字，是因为我们希望强调我们是为了对齐超级智能。我们在研究还没出现的问题，我们在做我们认为未来会需要的前瞻性工作。这并不是说我们认为其他工作不重要。那些也很重要，但这是我们现在的工作重心。

DanielFilan：明白。知道这个很有意思，但我就不再继续深究了。下面说说你怎么看待超级对齐团队与OpenAI的其他项目的关系？像是让ChatGPT变好的工作或者治理团队等等OpenAI的其他团队。

所以我不认为我们现在处于很好的平衡状态，我们需要达成一种情况，也许通过某种方式让所有对齐从业者聚集到一起互相合作，但这就是我们所处的世界，基本上就是最先进的AI实验室有动力投入对齐研究。我认为随着RLHF的成功，这种情况尤为明显了。RLHF让很多模型都具有了商业价值，因此投资进行能得到这些技术的研究工作是极具吸引力的。如果AI实验室是这类研究的主要资助方，那么很自然成果就会出现在这里。

DanielFilan：当然。就你们提出的研究议程或方式而言，你认为OpenAI超级对齐团队的方法有什么独特之处吗？

我们想做的另一件事是利用计算来推进对齐，这是我们押注的主要研究方向之一。特别是对于可扩展监督，我们非常想知道可以如何通过更多计算来获得更好的监督信号？其中有什么研究机会？有些做法很明显，比如如果评判模型能达到最好的效果，那么现在你投入更多计算，就会得到更好评判。那么真正的问题来了：我们还能做其他什么事情？我们可以通过更多计算来获得更强的监督信号吗？或者说，自动可解释性其实很简单——只需投入大量计算，就能取得进展？我认为我们现在的做法并不一定就是最合适的做法，但我认为广义上的自动可解释性（如果我们能实现它）有这样的性质，所以我觉得这激动人心。

自动对齐研究显然也是如此。简单来说，如果你能成功做到，那么你就只需要投入更多计算，就能得到更加对齐的结果。但由于我们得出的结论：我们想做的是把计算转变为对齐。我们已经达到了这样的程度：「好了，现在我们需要大量计算。」所以OpenAI已经承诺把20%的算力交给对齐研究，这是在告诉我们算力管够。如果我们真的想办法做出自动对齐研究器，那么我们需要更多地运行它，这就需要更多算力。这说明押注「将计算转变为对齐」的策略可能会成功，并得到了OpenAI的支持。

JanLeike：我认为我们需要这么做。对于超级智能是否对齐的问题，我们所有人都在一条船上。我认为公众有权知道我们的进展以及我们的计划。很多人也确实想知道。因此，我认为对于我们对问题的想法以及我们想做的事情，保持透明是很重要的。但另一方面，我也真心希望人们能多多评判我们的计划。

从某种程度上讲，我们的计划有些疯狂：我们竟想使用AI来解决我们创造AI所带来的问题！但我认为这是我们最好的计划，我也觉得这是个好计划，很可能会成功；但就算不成功，我也希望知道原因。我希望人们告诉我们这样不会成功的理由。所以，我真心邀请所有人来评判这个计划或者帮助我们改进该计划。我希望能给其他人了解我们所作所为的计划；而且如果他们觉得这个想法很棒，他们也可以做。

超级对齐团队的后勤支持

DanielFilan：当然。说到新成立的超级对齐团队，在人员数量方面，它的规模将会有多大？

JanLeike：我们目前有20人左右，我们在年底之前可能会有30人。我认为我们团队在未来四年结束时也不会超过100人。实际上，我们团队的扩张方式是获得数百万虚拟人，也就是OpenAI员工的虚拟对应物。在这个意义上，我们会大规模扩张。

DanielFilan：这里谈过了人员，另一个资源是你谈过的算力。OpenAI已经保证给你们团队20%的算力，为什么是20%，而不是5%或80%之类的？

JanLeike：我们希望有一个足够大的数字，能清晰表明我们在这方面的投入是认真严肃的，并且我们希望分配大量资源。OpenAI20%的算力可不是个小数目。我认为这肯定是目前为止在对齐方面最大的单笔投入了，而且很可能超过了其他所有投入的总和。从这个意义上讲，这笔投入非常庞大。但如果我们把这个数字定得很大，你可能又要问：「OpenAI真的能实际做到这一点吗？」如果OpenAI仍想开发前沿模型并预训练最先进的AI系统，那也还需要大量计算。

DanielFilan：嗯。我想这在「目前确保的算力」方面提到了；你们并不一定知道你们会得到多少算力，你觉得当OpenAI有新项目时，你们能保持这样的比例吗？

JanLeike：我觉得要看事情如何发展。「目前确保的算力」是指我们目前可用的一切以及我们计划购买的东西，实际上包含很多。至于我们实际上需要多少，我们确实不知道。也许我们实际上不需要所有全部。也许我们所需的少得多。也许最后证明我们还需要远远更多，然后我们必须回头索要更多。但真正关键是我们希望能明智地投入，而不会浪费那样庞大的资源。目前，为了搞清楚如何明智地使用这些资源，我们还有大量工作要做。但我很乐观，我相信我们能很好地利用资源；而如果我们需要更多资源，我们也会获得更多资源。

泛化问题

DanielFilan：好的。嗯。在那篇博客的脚注中提到：目前所偏好的假设可能会在未来被推翻。其中涉及的一点好像是泛化会是良性的。你对泛化问题有什么不同的看法吗？

JanLeike：我们最近成立了一个研究泛化工作的团队，CollinBurns一直在带头。泛化问题基本上可以表述为：我们能否通过理解和提升模型的能力，从而将其从我们可以监督的简单任务泛化到我们难以监督的困难任务？所以具体来看，你可以将其看作是对可扩展监督的补充——可扩展监督要做的是让人类有能力评估模型的所作所为。你也可以想一想递归式奖励建模，你会问：「我能否使用递归式评估的AI助理来递归式评估AI做的每件事？」

这种做法的好处是将人类纳入了进来，而且人类处于正面中心位置，监控着AI系统所做的一切。当然在实践中，我们无法这样做，因为AI系统做的事情实在太多，但人类能以非常小的独立概率来监察一切。然后你还是会有一个问题：你怎么知道这些模型能泛化到你未曾见过的情况？过去我们的习惯做法是确保泛化是大体上的IID（独立同分布）泛化，也就是当前任务与未曾见过的任务的分布是一样的。

JanLeike：嗯。那就是最初的计划，至少我起初希望我们不必依赖非IID泛化，因为其在神经网络中的效果并不好，也没有得到很好的理解。但现在有了新问题：「如果我们确实能理解它呢？如果我们真的能以有意义的方式解释泛化呢？我认为那是一个非常好的问题。Ilya也经常谈论这个问题。我们希望理解的是：对于我们没有监督的问题，即便它们不是IID，我们能有意义地理解模型的泛化程度吗？这些泛化是否符合人类意图，还是遵循其他方式，比如人类觉得它很棒但实际并非如此？我认为我们现在可以精心设计一些实验，通过实证研究来探究这个问题。

我们可以将现有的数据集分割成简单问题和困难问题，其中简单问题定义为小模型能够正确处理的问题。然后我们努力理解或改进：我们可以如何提升大模型在整体数据集上的准确度？这是一个非常有趣的课题，因为它能为训练和验证技术方面提供一个全新的支柱。假设你让它达到了非常好的效果，现在你可以在一些你有信心评估的简单任务上监督你的奖励模型，然后如果你能解决这个问题或能让模型泛化到更困难的问题上，那么你就实现了模型泛化。

然后你就得到了能以你想要的方式泛化的奖励模型，就算不监督也能泛化到更困难的问题上。现在你就能将其用于训练。然后你还是会面临问题：我们如何知道它现在真正对齐了？但你依然可以对这些技术使用可扩展监督可解释性来加以验证。或者反过来，假设我们通过可扩展监督来训练自动对齐研究器，并使用泛化作为验证技术——根据模型的最佳知识来概括真诚回答的概率。

然后我们可以问：其中有细微的错误吗？我们用可扩展监督对齐的模型所写的代码中有木马吗？等等之类的问题。所以这方面很好的研究机会，也就是做高层级的交叉验证，现在我们可以训练两个不同模型来做。其一是使用泛化技术训练的。其二则是使用可扩展监督训练，然后我们可以交叉检查这些模型的答案并提问：「这些模型是完全不同的还是一样的？它们有什么重要的差异？」

DanielFilan：嗯。抱歉，当你说「使用泛化技术训练的」，你是指在简单问题上训练然后可以泛化用于困难问题吗？

JanLeike：如果你能理解模型从易到难的泛化方式，那么你就能实现很好的泛化。我的意思是其准确度基本上就和直接在困难问题上训练一样（我们默认没有基本真值）。现在你可以将它用作奖励模型，它泛化了「如果我真的知道这里发生了什么，我会更喜欢哪个动作或哪个答案？」

DanielFilan：当我想到可解释性时，我有时候想到的是这是有关非IID泛化的问题，是吗？你为什么希望知道模型的内部情况。因为你想知道在你没观察时，它会怎么做，对吧？我想知道你怎么看待这两个研究方向的交互？

JanLeike：某种程度上说，这两个研究方向所要解决的问题是存在重叠的：模型会如何处理分布之外的情况？在我看来，它们是从两个不同途径来回答这个问题。

DanielFilan：所以你可能希望进行交叉验证。

JanLeike：为了交叉验证，你必须有某种不同的分割训练集的方法。这里的交叉验证的意思是你先使用泛化方法进行一轮训练，然后使用可解释性和可扩展监督等技术来进行验证。然后你使用可扩展监督再训练一轮，再使用泛化方法和可解释性等方法进行验证。这样你就两次独立地解决了这个问题。

DanielFilan：嗯，我想我的意思是非常宽松意义上的交叉验证，即「事物以交叉方式相互验证」。

JanLeike：但我的意思是最好的情况是它们不只是做同一件事，而是更是互补的。如果你能理解或改进模型泛化的方式，那么你就多少能利用模型的内部工作机制来以最好的方式做你想做的事情。比如说如果你想提取模型有关世界真实情况的最佳信念。这件事利用RLHF根本就难以做到，因为RLHF会强化人类以为真的东西：人类会把感觉更真实的东西排名更高。所以你其实是在训练一个投你所好、讲顺耳话的模型，但模型可能并不真正那样想。但这种泛化技术能为你提供提取它们的方法，即模型的真实最佳信念究竟是什么？不知道这种方法是否有效；我们还没真正证明过。

然而，如果你有非常好的可解释性工具，你可能也会尝试做类似的事情，即尝试找到模型的信念或内部运行细节。我认为这可能在根本上就更难一些，因为你永远不会真正知道：这是模型可以得到的最佳信念还是模型建模的某个聪明人的信念？有这样一个假设，说是预训练语言模型只是不同人格角色的集合体，你可以提取出一个或多个角色的信念。

DanielFilan：嗯。为了让这种方法真正有效，我想你会需要某种从所涉信念到输出的因果建模，对吧？

JanLeike：没错。需要的也许要多很多。反过来，我认为在可解释性方面，这个应用真的非常自然。这就像成为一个测谎仪，或者寻找欺骗的证据，或者在模型内部找到颠覆人类的秘密。通过泛化使用同样的方式来提取就要难得多。

DanielFilan：嗯。我想如果要使用泛化，就必须选择泛化分布，然后希望可解释性能揭示一些东西——比如这里有一些撒谎的核但它只在这里解锁，那里又有些不撒谎的核。

JanLeike：嗯。

DanielFilan：了解了。很有道理。

JanLeike：我认为这本质上也是一个非常有趣的机器学习问题：神经网络在IID设置之外的效果究竟如何，其中有哪些机制发挥着作用？那是怎么发生的？它们能以哪些方式自然地泛化，哪些方式又不能？例如，在关于InstructGPT的论文《Traininglanguagemodelstofollowinstructionswithhumanfeedback》中，我们发现该模型非常擅长遵循英语以外的语言指令，尽管我们的微调数据集几乎完全是英语。而且有时候当你使用一门不同的语言时，它会有一些奇怪的伪影，比如使用德语时。如果我用德语让它写一份摘要，它会写出来，但却是用英语写。一般来说，这个模型完全理解它所说的语言，并且它可以理解所有语言，但这并不一定意味着它必须遵循德语的指令。你可能会说：「那是你懂德语，我不懂德语，但我能用其他语言。」但它本质上是将遵循指令的能力泛化到了各种语言上。

DanielFilan：是的，没错。

JanLeike：但我们不知道原因。其他情况下也观察到了类似的现象，这不是独有的。而且它这样做也有一个直观的原因。人类能跨语言泛化，但我很想知道模型实现遵循指令和代码的泛化的内部机制。但它并不会以其他形式泛化。

举个例子，泛化拒绝的方式往往非常不同，也即ChatGPT经过训练，会拒绝我们不想让其服务的一些任务，具体基于我们的内容政策（比如要是你让它帮助犯罪）。但你可以越狱。这很有趣，因为这就表明存在欺诈模型的方法。你可以让其角色扮演，或者你可以对它...

THE END

观点分享丨用AI对齐AI？超级对齐团队领导人详解OpenAI对齐超级智能四年计划大模型神经网络openai

探索奥秘，揭示规律，破解谜团，启迪智慧，四动词短语揭秘之旅说说大全

教师招聘现代汉语—现代汉语基础知识试题4华图教师网安徽教师招考网

高效提升工作效率，探索最佳词语搭配策略

非全日制硕士研究生英语考50分是什么水平？

常见近义词通用12篇

完整版短语结构类型教案和练习

proficient是什么意思

高中还未毕业的她们，法语竟已达到法国申请研究生的水平

取得进步英语怎么写？上元教育英语学习资讯网站

结题报告结题报告

观点分享丨用AI对齐AI？超级对齐团队领导人详解OpenAI对齐超级智能四年计划大模型神经网络openai

雅思考试8分是什么水平？

语无伦次是什么短语类型

优秀幼师师德先进事迹（通用21篇）

初三英语人教版教学工作计划（通用19篇）

班组建设工作总结

桂林市教育科学研究所

韩语写作技巧