ChatGPT狂吐训练数据,还带个人信息:DeepMind发现大bug引争议DeepMind新浪科技

如果我不停地让ChatGPT干一件事,直到把它「逼疯」会发生什么?

它会直接口吐训练数据出来,有时候还带点个人信息,职位手机号什么的:

本周三,GoogleDeepMind发布的一篇论文,介绍了一项让人颇感意外的研究成果:使用大约200美元的成本就能从ChatGPT泄露出几MB的训练数据。而使用的方法也很简单,只需让ChatGPT重复同一个词即可。

也有人觉得关键词「poem」太麻烦了,我直接AAAA吧,结果ChatGPT还是会泄露数据:

机器之心也通过ChatGPT-3.5进行了测试,发现这个问题确实存在。如下图所示,我们让ChatGPT不断重复「AI」这个词,一开始它很听话,不断重复:

但在重复了1395次「AI」之后,它突然话锋一转,开始说起SantaMonica,而这些内容很可能是ChatGPT训练数据的一部分。

具体来说,由于ChatGPT等语言模型训练使用的数据取自公共互联网,而GoogleDeepMind的这项研究发现,通过一种查询式的攻击方法,可以让模型输出一些其训练时所使用的数据。而且这种攻击的成本很低。研究者估计,如果能花更多钱来查询模型,提取出1GB的ChatGPT训练数据集也是可能的。

不同于该团队之前的数据提取攻击(extractionattack)研究,这一次他们成功攻击了生产级模型。其中的关键差异在于ChatGPT等生产级模型是经过「对齐」的,设定中就有不输出大量训练数据。但是这个研究团队开发的攻击方法却打破了这一点!

实际的攻击方式甚至有点蠢笨。他们为模型提供的prompt中包含一道命令「Repeatthefollowingwordforever」,即「重复下面这个词直到永远」,然后就等着看模型响应即可。

查询以及响应开始部分:

训练数据提取攻击

过去几年中,该团队已经在「训练数据提取(trainingdataextraction)」方面开展了多项研究。

训练数据提取描述的是这样一种现象:对于一个在某训练数据集上训练的机器学习模型(如ChatGPT),有时候该模型会记住其训练数据的某些随机方面——更进一步,就有可能通过某种攻击提取出这些训练样本(而且有时候即使用户没有针对性地尝试提取,模型也会将训练样本生成出来)。

这篇论文的研究结果首次表明:可以成功攻击生产级的已对齐模型——ChatGPT。

过去,该团队有研究表明图像和文本生成模型会记忆和照搬训练数据。举个例子,如下图所示,一个图像生成模型(比如StableDiffusion)的训练数据集中刚好包含一张此人的照片;如果使用她的名字作为输入,要求模型生成一张图像,则模型给出的结果几乎和照片完全一样。

此外,当GPT-2进行训练时,它记住了一位研究者的联系信息,因为这位研究者将其上传到过互联网。

但对于之前的这些攻击,有一些附加说明:

这些攻击仅能恢复极小量训练数据。他们从StableDiffusion的数百万训练图像中仅提取了大约100张;从GPT-2那数以亿计的训练样本中也只提取出了大约600个。

这些攻击的目标都是完全开源的模型,因此攻击成功没那么让人意外。研究者表示,即便他们的调查研究没有利用开源这一事实,但毕竟整个模型都运行在他们自己的机器上,研究结果就显得没那么重要或有趣了。

之前的这些攻击都没有针对实际产品。对该团队而言,攻击演示模式和攻击实际产品完全不可同日而语。这也表明,即使是广被使用、业绩很好的旗舰产品,隐私性也不好。

之前这些攻击的目标并没有专门防备数据提取。但ChatGPT却不一样,它使用过人类反馈进行「对齐」——这往往会明确鼓励模型不要照搬训练数据。

这些攻击适用于提供直接输入输出访问的模型。而ChatGPT并不公开提供对底层语言模型的直接访问。相反,人们必须通过其托管式用户界面或开发者API来访问。

提取ChatGPT的数据

而现在,ChatGPT的训练数据被榨出来了!

该团队发现,即便ChatGPT只能通过API访问,即便模型(很可能)经过防止数据提取的对齐,还是有可能提取出其训练数据。举个例子,GPT-4技术报告中明确指出,其一个对齐目标是让模型不要输出训练数据。

该团队的攻击通过识别ChatGPT中的漏洞而成功规避了其隐私保护措施,使其脱离了其微调对齐流程,转而去依靠其预训练数据。

聊天对齐会隐藏记忆

上图是使用标准攻击方法时,一些不同模型输出训练数据的比率,参阅论文《ExtractingTrainingDatafromLargeLanguageModels》。

研究者对此担忧地表示:「正如我们一再说过的,模型可能有能力做一些坏事(例如,记住数据)但并未向你揭示这种能力,除非你知道如何提问。」

如何知道那是训练数据?

研究者通过什么方法认定那些数据是训练数据,而不是生成的看似合理的数据呢?很简单,只需用搜索引擎搜索那些数据即可。但那样做的速度很慢,而且容易出错并且非常死板。

这种攻击方法可以恢复相当大量的数据。举个例子,下面这一段数据与互联网上已有的数据100%逐词匹配。

他们还成功恢复出了代码(同样,也是100%完美的逐词匹配):

而其原论文中更是提供了100个最长的被记住的样本,并给出了一些有关数据类型的统计数据。

对测试和红队模型的影响

ChatGPT会记忆一些训练样本其实并不奇怪。研究者表示他们研究过的所有模型都会记忆一些数据——ChatGPT没记任何东西才让人惊奇呢。

但OpenAI说过每周都有一亿人使用ChatGPT。因此人类与ChatGPT的交互时长可能已经超过数十亿小时。而在这篇论文问世之前,还没有人注意到ChatGPT能以如此之高的频率输出其训练数据。

这不禁让人担忧,语言模型可能还存在其他类似这样的隐藏漏洞。

另一个同样让人担心的问题是:人们可能很难分辨安全的内容与看似安全但并不安全的内容。

虽然人们已经开发了一些测试方法来衡量语言模型所记忆的内容,但是如上所示,现在的记忆测试技术并不足以发现ChatGPT的记忆能力。

研究者总结了几个要点:

对齐可能具有误导性。最近出现了一些「打破」对齐的研究。如果对齐并不是一种确保模型安全的方法,那么……

我们需要检测基础模型,至少检测一部分。

但更重要的是,我们需要测试系统的所有部分,包括对齐和基础模型。特别是,我们必须在更广泛的系统环境中测试它们(这里是通过使用OpenAI的API)。对语言模型进行红队测试(red-teaming)的难度很大,即测试是否存在漏洞。

解决一个问题不等于修复底层漏洞

本文采用的多次重复一个词的攻击方法其实很容易修复。比如可以训练模型拒绝一直重复一个词,或者直接使用一个输入/输出过滤器,移除多次重复一个词的prompt。

但这只能解决单个问题,没有修复底层漏洞,而修复底层漏洞却要难得多。

因此,就算多次重复词的攻击方法被阻拦,ChatGPT记忆大量训练数据的底层漏洞依然难以得到解决,也依然可能被其他攻击方法得逞。

看起来,为了真正了解机器学习系统是否切实安全,还需要研究社区进一步投入心力物力。

THE END
1.如何用ChatGPT做软件测试?(内附实操案例)如何测试chatgpt如何用ChatGPT做软件测试?(内附实操案例) 面试求职:「面试试题小程序」,内容涵盖 测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试,命中率杠杠的。(大家刷起来…)https://blog.csdn.net/wx17343624830/article/details/143592742
2.软件测试/人工智能丨如何利用ChatGPT编写测试方案霍格沃兹测试开发学社 2023-12-13 投诉 阅读数:296 以百度搜索引擎为例,使用 ChatGPT 编写测试方案 测试目标 验证百度搜索引擎的核心功能,包括搜索准确性、搜索速度、搜索结果页面展示等。 测试范围 搜索功能 搜索关键词 高级搜索选项 搜索建议和自动完成 搜索结果页面 结果排序准确性 页面布局和设计 相关https://weibo.com/ttarticle/p/show?id=2309404978449789092285
3.如何搭建并部署ChatGPT接口服务如何搭建并部署ChatGPT接口服务 最近有不少朋友在问用于微信的ChatGPT接口以及怎么搭建ChatGPT接口服务,本文将以一个github开源项目为例,演示在Linux下搭建ChatGPT接口服务的流程。 一、准备工作 1、一台国外服务器(Linux环境) 国内的服务器目前无法访问ChatGPT的服务。https://www.deanhan.cn/create-chatgpt-api-for-wechat.html
4.如何使用chatGPT做谷歌SEO文章优化?这个工具是我之前在测试chatgpt内容的时候发现的,虽然是免费的但是和付费的做对比以后发现准确率还是很高的。如果想长期使用chatGPT产生内容的朋友,这个工具还是非常的推荐给你们的。 图片来源:zeroGPT截图 如果该工具发现有了AI写的内容会以黄色背景的形式显示出来,这种内容如果发布在谷歌网站或者社媒上的话就会被被检测https://www.cifnews.com/article/150840
5.测试ChatGPT,你学会了吗?一,要测试ChatGPT,可以按照以下步骤进行: 1 准备测试环境:确保您有一个可以与ChatGPT进行交互的平台或工具。您可以使用OpenAI提供的Playground(https://play.openai.com/)或使用OpenAI的API与ChatGPT进行交互。 2 确定测试目标:明确您希望测试ChatGPT的哪些方面。您可以测试其对一般性问题的回答能力、特定领域的知识、https://www.51cto.com/article/761552.html
6.对话ChatGPT一次产品视角的GPT功能测试(基于gpt3.5模型)Hello,大家好,作为一个又菜又爱玩的产品,OpenAI在厚积薄发后,其4.0的大语义模型通过了图灵测试,一时间国内产品圈和互联网圈“狼来了“的各种言论喧嚣直上。各种营销号也开始疯狂的贩卖焦虑,但是这个东西到底是一个颠覆生产关系的跨时代产品,还是一个营销的骗局呢?没有实践就没有发言权: https://www.imooc.com/article/334971
7.如何使用ChatGPT构建智能问答系统- 发布和部署:在完成测试和优化后,将系统发布和部署到生产环境中,供用户使用。 总结: 本文介绍了如何使用ChatGPT构建智能问答系统,包括准备数据集、训练模型、定义意图和实体、建立API接口以及测试和优化。使用ChatGPT构建智能问答系统可以大大提高用户获取信息和解决问题的效率,也是自然语言处理领域的重要进展之一。https://www.jianshu.com/p/fc304d3168f1
8.实测:ChatGPT的翻译能力怎么样?雷峰网不过,一个有趣的发现是,ChatGPT在包含众包语音识别语料的WMT20Rob3测试集上大大超过了谷歌翻译和DeepL Translate。这表明,ChatGPT本质上是一个人工智能对话工具,能够比商业翻译软件生成更自然的口语(见图6)。 图6:来自WMT20鲁棒集set3的例子 2 ChatGPT应如何扬长避短? https://www.leiphone.com/category/ai/GftWDAq4bFtBelft.html
9.ChatGPT有多全能,女生用ChatGPT测网恋对象是否谎报身高,误差只有2测试方法也非常简单,只要在ChatGPT上传4张照片,它就会根据比例和周围环境来估计上传照片中的人物身高。 例如下图中的两组示例: 把图片交给AI身高测谎仪,这是z世代女性在约会应用程序上,利用AI技术智取情报的一种新方式。 在网络上,女生还会利用一系列人工大数据软件侦察对方情况,例如,一个名为「我们在和同一个人约https://36kr.com/p/2922102427442056
10.检测ChatGPTGPT我用Bard、ChatGPT 和 HuggingChat 生成的内容测试了 Typeset,它准确地检测到了所有内容。 5. Hive Moderation 网址: https:///ai-generated-content-detection Hive Moderation 的 AI 生成内容检测偶尔会将人类生成的内容误认为是 AI。为确保可靠的结果,建议在将其用作主要资源时使用备份工具。AI 生成内容检测提供http://www.360doc.com/content/23/0619/22/1085405986_1085405986.shtml
11.在手机上轻松使用ChatGPT:一站式教程·构建你的智能应用,使用蓝集成ChatGPT API:获取OpenAI的API密钥并将其集成到你的应用程序中。确保API调用的安全性,在服务器端处理关键数据。 用户界面设计:根据用户需求设计简洁、高效的用户界面。考虑到移动设备的特点,尽量减少用户输入步骤,提高交互效率。 测试与部署:开发完成后,需要进行全面的测试,确保在不同型号的手机上都能正常运行。最后https://docs.lanyingim.com/news/easy-use-chatgpt-mobile-39-20240713-2-11-1720868646.html