本文最初发布于DavidGilbertson的个人博客。
你听说过这样的说法吗?“水印可以帮助识别由LLM生成的文本”或者“水印有助于减少AI的危害,如生成错误信息”。
什么是水印?
水印(特别是LLM文本的统计水印)是在生成LLM响应时发挥作用的一个过程。
一个人为设计的水印方案可能是这样的:在生成响应的每个单词时,如果前一个单词的开头字母在字母表中的位置是偶数(B、D、F等),那么它就会稍微优先选择以奇数字母(A、C、E等)开头的单词。然后,你可以通过检测算法检查任何一段文本,它就会以一定的可信度告诉你该文本是否有这种特定的“水印”(单词模式)。
现实世界中的策略更为复杂(而且是针对词元而非单词),但希望你能借此了解LLM如何生成在人类看来自然的文本,而当你需要知道什么时,又能检测出它是“合成”文本。
那么,我们能分辨出
LLM生成的文本吗?
水印的初衷是“帮助识别由LLM生成的文本”。
你可能会认为,水印是为了实现以下两个目标中的一个:
水印技术解决了第一点,但经常被说成是实现了第二点。
第一种情况可能对LLM开发者有用。第二种情况对社会有用,因为它可以帮助保护公众免受AI带来的各种危害(理论上)。
当我说水印“永远不会起作用”时,我的意思是,它永远无法解决区分AI生成的文本和人类生成的文本这个问题。进一步讲,水印也无法防止AI生成的文本对社会造成危害。
你可能会问,这是否是一种稻草人论调?其实不然。“水印可以帮助识别由LLM生成的文本",我读过的关于该主题的每篇论文(1、2、3、4、5、6)都提到了这一说法。而这些论文中的大多数都接着提出了一个更有力(也更错误)的主张,即水印可以在某种程度上帮助减少危害。我们把目光转向媒体上报道的关于水印的最新论文(来自DeepMind,发表于《自然》),它们都提到了水印能够检测AI生成的内容并减少危害(1、2、3、4、5、6)。其中没有一篇论文提到水印永远不会起作用的原因。由此可见,对于水印的潜力,许多人的看法是错误的。
为什么水印永远不会起作用?
要使水印技术能够区分AI文本和人类文本,必须满足三个条件。我将在下面的章节中逐一解释其中的原因。这三个条件是:
接下来,我们详细看下每一个条件。
1.所有有能力的LLM都实现水印功能
我所说的‘有能力’是指LLM任何能够产生水印所要防止的有害结果。
对于“永远不会起作用”这样的话,你可能会持谨慎的态度。但我可以告诉你,这种情况是绝对不可能发生的,因为不带水印的开源模型已经存在。像Llama3.1405B这样的LLM已经被下载了数百万次,你无法阻止人们下载这些无水印模型。
读到这里,你可以停下了。单凭这一点,就足以解释为什么水印永远不会起作用:想要造成危害的人总能获得有能力而无水印的LLM。
遗憾的是,我们在讨论水印时所使用的语言往往无法区分“部分”和“全部”由AI生成的文本,从技术上讲,上述三种情况都可以说成是“检测AI生成的文本”。
你可能会说,这只是语义问题。但要检测AI生成的文本,就必须解决所有LLM的问题,否则就什么都没解决。
如果你的房子有四扇窗户,而你只锁了其中一扇,你会说这“有助于保护好你的家”吗?如果你知道有的窗户永远也锁不上呢?如果窃贼事先知道哪些窗户会开着呢?
2.所有LLM提供商都不进行词元选择控制
在仔细思考一个问题时,我喜欢使用这样一个思维模板,“如果X为真,那么还有什么一定是真的?”,让自己沉浸在X为真的假想世界里。这可以帮助我推理一个主张或目标的合理性。在这种情况下,我们可以问:在一个所有LLM都有水印的世界里,还有什么是真的?
首先,在所有LLM输出都必须带有水印的世界里,LLM提供商不能允许用户将温度设置为0。如果你对LLM的“温度”不熟悉,可以把它想象成“随机性”。你需要知道的是,有时有一点随机性是好的,但有时你需要将其设置为零,比如当你希望相同的输入总是产生相同的输出时,或者是在生成严格格式的代码或数据时。你还需要知道,统计水印依赖于随机性,如果温度为0就不可能实现(出于类似原因,“topP”也是如此)。
其次,在所有输出都必须打上水印的世界里,LLM提供商就不能像OpenAI那样,通过top_logprobs参数让用户访问每个词元的备用选项。如果你不知道“toplogprobs”是什么,也没关系,你只要知道这是一个有用的功能。如果OpenAI希望所有输出都带有水印,就需要把它去掉。
因此,如果你设想的未来是所有AI生成的文本都带有水印,那么你也必须设想一个无法使用temperature、top_p或top_logprobs的未来。
这很成问题,因为如果不允许降温的话,现有的危害缓解系统(内容节制、欺诈检测、漏洞查找系统等)就会失效。因此,如果你非要使用水印来减少危害,其副作用很可能是增加危害,因为现有系统的运行效率会被迫降低。
所幸,满足这一条件的可能性接近于零。
3.不存在开源模型
我这里说的“开源”,更具体地说,是指可以下载并在用户自己的硬件上运行的模型,而不是通过API提供的模型。
水印是在生成输出时发挥作用的。也就是说,这个过程发生在模型权重的黑盒之外,发生在根据模型输出选择词元的常规代码中。因此,从开源模型中移除水印机制非常容易(只需删除添加水印的代码即可)。也就是说,只有当水印是在应用程序接口(API)后台实现时才真正有意义,因为它可以由LLM提供商强制应用。
因此,如果你想要一个有水印的世界,你就需要一个没有开源(可下载)模型的世界。
还要考虑到,精明的恶意用户会想到,如果使用以API形式提供的LLM,他们很可能会被监视(OpenAI报告了他们阻止的恶意账户,并描述了不同技术公司如何共享信息以实现对恶意用户的跨平台追踪)。因此,无论是否有水印,恶意用户都会选择开源模式来保护隐私。但在开源模型中,水印是没有意义的!
现在,有人可能会说,开源模型不像专有模型那么强大,因此造成危害的可能性较小。未来也许只有基于API的LLM才会强大到足以造成真正的危害,所以我们不必担心开源模型的水印问题。即使事实如此,也无助于解决水印问题,因为你可以使用开源模型改写更强大模型的输出,从中去除水印。而且,更智能的LLM也并不需要更智能的改写方法来去除水印,不管未来会发生什么,现在的模型都已经足够好。
有些人可能会说,是的,水印可以通过改写来绕过,但那仍然是一种威慑。我想礼貌地要求对这一说法进行量化:心怀不轨的人有多大的比例会被阻止,在编造这个统计数据的过程中,又有多少一厢情愿的想法?
其次,如果单纯的“威慑”就已经让你感到满意,那么我有一个水印方案供你使用!其工作原理是这样的:只需在LLM输出中,用“enspace”字符替换普通空格字符。在人看来,它们是一样的,但却有明显的不同。这个例子似乎微不足道,但即使是最先进的水印技术,也很少比空格替换更稳健。在这两种情况下,LLM提供商都可以声称他们的内容可以被检测出是AI生成的,但在这两种情况下,恶意用户都很容易绕过它,而你在现实世界中所获得的危害缓解效果微乎其微。
说白了,第三个条件(没有开源模型)与第一个条件(所有LLM都有水印)有微妙的差别。第一个条件只是指出我们无法回到过去:我们已经有了不带水印的LLM,而且无法撤回。第三个条件指出,不能有用户可以自由下载和修改的LLM。
所以,我已经给出了一个理由,说明为什么水印永远无法作为检测AI文本的手段。我希望你能清楚这个想法中存在的无法克服的问题。
说到这里,你可能会退一步问:如果不使用水印,我们还可以研究哪些技术方案来实现检测AI文本的目标呢?
这是一个值得思考的问题,但我建议再退一步问:检测AI生成的文本这一目标有意义吗?
检测AI生成的文本有意义吗?
为了探讨这个问题,我们想象一下,在另一个宇宙中,所有AI生成的文本都带有水印,而且都能被检测到,无一例外。这似乎是一场胜利,对吗?目标达到了,难题解决了。
但只要仔细想想就会发现,这实际上并没有解决任何问题,而且“检测AI生成的文本”也不是一个令人向往的目标。
我们需要考虑两个问题:
让我们逐条分析下。
1.这不是一个二元问题
人类可以写一段文字,然后请LLM帮他们整理(我希望有更多人这样做)。LLM可以总结人类撰写的若干资料,并生成常见主题的报告。科学家可以用爱沙尼亚语撰写论文,然后请LLM将其翻译成英语发表。
无论什么情况,基本思想和概念都来自人,只是由AI进行了组织或重新排列。这算不算“AI生成”?(既要考虑你自己对这个问题的看法,也要考虑并非所有人都会看法一致的事实)。
随着LLM越来越出色,越来越多的人意识到使用AI辅助写作(和思考)的好处,越来越多的内容将以某种方式与AI产生联系。
因此,这并不是一个二元划分,而且只会越来越不是。
很多糟糕的解决方案就是因为这个原因导致的:把一个以二进制为主的系统当作一个严格意义上的二进制系统来处理(通常是因为二进制输出比较方便——如果提交的论文有LLM水印,就直接拒绝”)。乍看起来,这些解决方案没问题,但遇到“例外情况”就会出现未定义的行为。
因此,任何关于“检测AI生成的文本”的思路只要结果是二元的,本质上都是有问题的。任何人在提出检测AI文本时,如果没有解决不可避免会出现的假阳性和假阴性问题,都应该保持警惕。
2.并不是所有AI生成的内容都有害
对于任何想要检测AI文本的用例,都应该思考一下为什么要这样做。你的实际目标可能略有不同,比如减少错误信息或防止学生作弊。
下面的维恩图展示了AI生成的内容和我们想要防止的有害内容之间的关系:
因此,即使我们有能力稳健地检测AI生成的内容,我们仍然面临两个相当大的问题:
“我们需要一种方法来检测AI生成的内容”,在我看来,这个想法是“目标转换”的结果。在深入思考一个问题时,我会寻找目标转换的迹象,因为这通常是逻辑错误(和浪费精力)的指标。
在这种情况下,目标转换的原理是这样的:我们是从AI带来的几种新危害(错误信息、学生作弊等)开始的,我们真正的目标是防止或缓解这些危害。现在,这些危害都是由AI生成的内容造成的,因此,将目标转换为“检测AI生成的内容”这一代理目标似乎是合理的。然后,人们就会朝着这个代理目标努力。在本例中,所采取的方法就是实现水印。
有时,目标转换是无害的。但在本例中,从减少危害的真正目标转换到检测AI内容的代理目标并不合适(在维恩图中表现为有限重叠)。因此,即使我们达成了代理目标,实际上也并没有减少任何危害,而这才是真正的目标。
顺便说一句,任何针对“AI内容”的立法都会犯同样的逻辑错误。立法的目的是减少危害,但措辞却很快从“减少危害”过渡到“给AI生成的内容贴标签”,好像两者是等同的。
我对减少危害的看法
(我们将继续假设我们身处另一个宇宙,在那里,所有AI生成的文本都带有水印)。
大规模的错误信息
这里的风险在于,LLM能够以前所未有的规模有针对性地提供错误信息。乍一看,检测AI生成的文本似乎很合理,但真正的目标是防止错误信息的传播,无论是由AI、内容农场还是人类生成的。
而错误信息只是所有AI文本的一个子集。因此,一旦检测到某篇文本是由AI生成的,就需要继续解决检测它是否是错误信息的问题。检测出AI文本,与以任何方式实际地减少危害还是有差距的。
当然,更明智的解决方案是检测错误信息。
标记社交媒体上AI生成的内容
人们普遍认为,本质上,AI生成的文本就是“坏”的。即使没有明说,任何以“透明”为名要求贴标签的呼声都暗示了这一点。
当然,社交媒体上有些AI生成的内容确实是不好的,但也有很多潜在的好内容。任何产品公司都可以部署一个机器人助手来回答用户的问题(无论用户在哪里提问)。大学的海洋生物学系可以推出一个机器人来回答网络上关于鲨鱼的问题。Snopes机器人可以礼貌地用事实回应虚假信息,从而积极地打击错误信息,并让最需要的人看到它。(AI比人类更善于礼貌地解释错误的原因)。
同时(回到现实中),不要忘了,怀有恶意的人会绕过水印。这样一来,他们的文本就会隐含有一个“人类生成”的标签,这反而有助于掩盖他们的欺骗行为。
目前来看,这种贴标签的想法只是短视和不合逻辑,但实际的情况可能更糟。目前的法规只要求对AI生成的文本进行标注,但如果再进一步,我们试图限制AI文本,那可能会阻碍有益机器人的出现。因此,这种简单化的观点——机器人坏,人类好——从长远来看可能会造成危害。我们应该严肃质疑任何基于这一前提(明确或不明确)的监管。
有人会说,贴标签是为了让用户有“知情权”,知道内容不是由人编写的。这很有意思。想象一下,如果有人告诉你,我们有“知情权”,我们得知道内容是不是左撇子写的。你会问"为什么,他们怎么了?“把这说成是一种“知情权”,不过是给“机器人坏,人类好”这种错误观点披上了一层薄薄的面纱。
交互式电子邮件诈骗
利用AI进行电子邮件诈骗是一个严重的风险,它能以前所未有的规模操纵受害者(网络钓鱼、套取资金等)。如果执行得当,这可能会造成重大的危害(想象一下这样的世界,诈骗并不容易识别,而骗子比你更聪明)。
这时,检测AI生成的文本似乎很有用,但我们遇到了检测错误信息时遇到的问题;恶意AI文本只占所有AI文本的一小部分,那么你究竟该如何从“检测AI生成的文本”迈向“检测AI驱动的骗局”呢?
更好的解决方案应该是检测恶意或欺骗性内容,而不管这些内容是由谁写的。
现在,我承认,如果我正在和我的老板们通过电子邮件交谈,他们让我把公司账户里的钱转到比特币账户上,而他们的每封邮件都被标记为AI生成的,那么我可能得三思而后行。所以,如果你认为骗子们会乐于使用水印文本,这将是一个相当不错的主意。但他们当然不会。他们会绕过水印,而他们的诈骗邮件也不会被贴上AI生成的标签。
最后这个例子更合适,可以说是最有说服力的水印案例(如果无法绕过的话)。
如果老师指导学生完成一篇论文,并告诉他们不要使用LLM,那么“AI文本”和“不良行为”的重叠几乎是完美的。
但是,即使AI文本检测能提供大部分的真阳性结果(正确识别作弊者),你还是会漏掉那些没有使用LLM或绕过水印的作弊者。而且,论文可能因为巧合而与水印模式一致,而你可能因此向学生发出错误地指控(如果你将检测应用于数百万学生并引发强烈的反响,这将是一个非常严重的问题)。
现在,如果你仔细思考一下这种作弊的情况,你就会发现水印纸牌屋的另一个结构性问题......
每当谈到内容水印时,都需要有一个公开可用的系统来检测水印。因此,和作弊的学生换位思考一下(在另一个世界里,LLM的所有输出都带有水印)。你的目标是作弊并避免被发现。你会怎么做?你会找一个LLM来帮你写论文(有水印),改几个词,然后用检测系统检查一下,看看水印是否还能被检测出来。如果它被标记为AI生成的,你就再改一下,然后再检查一次,如此反复。你不会被发现的,因为你不会提交带有可检测水印的论文。
在继续讨论之前,我想说明的是,我并不是说这些问题都有一个简单的解决办法。我只是想说,检测AI生成的文本并不是一个解决方案。
水印毫无意义吗?
围绕水印的讨论让我想起了区块链。两者都是有趣的技术成果,人们对它们如何解决各种社会问题做了很多说明。但这些说明大多包含错误的逻辑或基于错误的假设。而且,即使是一些声誉卓著的信源也乐于重复那些不合理的说法,因此,很难弄清楚,什么才是真正的真相。
话虽如此,还是有几支由聪明人组成的庞大团队在研究水印技术,因此一个合理的假设是,水印技术有其存在的理由,只是这些好处不包含广为宣传的减少危害而已。
据我所知,水印的主要用途是允许LLM开发人员检测其LLM生成的内容,使他们能够在用于未来训练的数据集中识别出这些文本。
它还让LLM开发人员可以遵守欧盟《人工智能法案》第50(2)条等要求添加水印的法规。(我当然希望这些规定不是基于水印可以减少社会危害的错误想法!)。
这给我们留下了一个谜团。为什么有那么多人把水印说成是解决AI造成的社会危害的办法,而只要仔细思考几分钟就会明白,水印永远也不可能解决这个问题。谁被误导了?又是谁在误导?
如果硬要推测的话,我会假设,撰写论文的研究人员了解,水印的应用范围非常窄;他们想检测由带水印的LLM生成的文本,并且知道当温度为零时水印不起作用,等等。他们将研究结果写成论文,然后在摘要中加以总结,并添加一些减少危害的说法,使论文具有更广泛的吸引力。记者们对这一话题进行报道,并加入自己的修饰,把水印描绘成普通人应该关心的事情。当信息传播到普通大众和政策制定者手中时,水印就被说成是区分AI文本和人类文本的一种方法,可以杜绝AI误导、论文作弊等现象。
也许,如果我们有更好的系统来检测错误信息,这种说法就会在传播之前被发现。
顺便说一句,你可能会觉得我跟水印技术有仇,其实不是那样的。我认为这项技术本身很有创意,也很出色——谁不喜欢隐写术呢?我质疑的是水印可以检测AI生成的文本(误导)和减少危害(可疑,近乎不真实)的说法。
朝着正确的方向迈出了一步?
我想象一个人,站在悉尼的海滩上。他要去洛杉矶。当他们走进大海,消失在波涛之下时,他们却声称自己是“朝着正确的方向迈出了一步”。从技术上讲,这没问题,但从根本上说,这是错的。
如果我们的目标是预防危害(确实如此!),那么真正正确的一步应该是专注于检测和减少有害内容,而不是把注意力放在“AI生成的内容”上。
非文本模式
到目前为止,我们探讨的都是AI生成的文本。但上述逻辑是否也适用于照片和视频水印?或者说,在减少危害的语境中,这些内容模式在概念上是否有所不同?
归根结底:文字只是对现实的解释,而照片和视频则被广泛认为是对现实的再现。因此,照片和视频更有可能被用于误导,因为它们可以作为证据来展示(和接受)。
我承认,我有一种直觉,特别是在最先进的视频生成模型还是以应用程序接口(API)的形式提供时,视频水印有可能可以减少危害。但每当我有这样的直觉时,我都喜欢听听大脑的第二意见。如果我从恶意用户的角度来考虑这个问题,我会直接去除水印(通过翻转、裁剪、调整大小等),或者使用像深度伪造(deepfake)这样的无水印方法。
实际上,我认为水印对所有模式的影响都是一样的:恶意用户生成的任何内容中都不会有水印,因为他们会以某种方式绕过水印。
因此,我认为,任何模式的水印都不会有什么光明的前景。
当然,长远来看,与给所有AI生成的内容都打上水印相比,检测真实内容似乎是更好的解决方案。
问题
最后,我将向水印支持者,特别是那些参与制定水印使用法规的人提出我的问题,并以这种形式重申我的主要观点:
会议推荐
12月13日至14日(下周五至周六),AICon全球人工智能开发与应用大会将在北京盛大开幕!本次大会汇聚70+位AI及技术领域的顶尖专家,深入探讨大模型与推理、AIAgent、多模态、具身智能等前沿话题。此外还有丰富的圆桌论坛、以及展区活动,带你深入探索大模型的最新实践与未来趋势。年度最后一次AI盛宴,让我们一起见证AI未来。