窃取个人数据？OpenAI遭集体诉讼！|ai人工智能答题_驾考

“尽管制定了购买和使用个人信息的协议，但被告采取了不同的方法：窃取。”近日，一批匿名人士以此为理由，向OpenAI，以及其投资方之一的微软公司发起集体诉讼。

以大模型原理构建的生成式人工智能产品，是算力与数据加持下的“暴力美学”，数据是门槛，语料库海量数据存在高度的数据合规风险。拥有1亿用户、数十亿访问量的ChatGPT因为“树大”其问题首当其冲，但以数据为基石的大模型，数据安全问题正变得越来越重要，甚至可能成为产品的“阿克琉斯之踵”。

AI新秀变“数据小偷”？

原告认为，此举违反了服务协议条款以及州和联邦的隐私和财产法。起诉书指出，这一数据窃取行为的受害人预计有数百万，潜在损失达30亿美元。原告诉求则是，要求法院暂时冻结OpenAI产品的商业访问和进一步开发。

不过，受访专家也指出，目前“窃取”暂时仍是原告方的一面之词，还不能据此贸然将OpenAI所实施的个人信息收集活动定性为违法行为。

如何理解数据“窃取”

综合来看，合规、知情-同意成为这起诉讼的风暴眼。

“尽管OpenIAI对其数据收集和做法‘绝对保密’，但就我们了解，该公司使用（至少）5个不同的数据集来训练ChatGPT。”根据起诉书陈述，OpenAI使用的数据集中有部分数据的抓取并不合规。

值得注意的是，公开资料显示，今年4月，Reddit官方宣布将对调用其API的公司收费，原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。

数据安全——大模型产品的“必答题”

“虽然ChatGPT表示，存储训练和运行模型所需的数据会严格遵守隐私和安全政策，但在未来可能出现网络攻击和数据爬取等现象，仍存在不可忽视的数据安全隐患。特别是涉及国家核心数据、地方和行业重要数据以及个人隐私数据的抓取、处理以及合成使用等过程，需平衡数据安全保护与流动共享。”南开大学法学院副院长、中国新一代人工智能发展战略研究院特约研究员陈兵说。

这已经不是ChatGPT第一次陷入数据泄露的风波。今年3月，其Redis开源库中的错误导致本ChatGPT服务中暴露了其他用户的个人信息和聊天标题。在ChatGPT被接连发现意外泄露用户聊天记录后，意大利数据保护局（GaranteperlaProtezionedeiDatiPersonali）于3月底宣布将暂时禁用ChatGPT并对该工具涉嫌违反隐私规则展开调查。加拿大也对OpenAI“未经同意收集、使用和披露个人信息”的投诉进行调查。

并且，由于参数量巨大，大模型需要借助分布式计算和云服务等技术来进行训练和部署，这就增加了数据被窃取、篡改、滥用或泄露的风险。

自ChatGPT发布后，中国企业目前已经发布了超70个基础大模型。雨后春笋般的大模型，在接下来商用过程中如何做到数据合规，已经成为每一个产品需要面对的“必答题”。

“合规确实是后发的大模型训练者需要面对的棘手问题。”袁立志坦言，从业者只能参照自身现实情况，选择尽可能安全透明、成本可控的方法。

AI的浪潮不会停歇，如何掌好前行的船舵，在企业生存与合规生产间找到平衡向前，或许已经成为第四次工业革命下的时代命题。

THE END

窃取个人数据？OpenAI遭集体诉讼！

数学界迎来AlphaGo时刻：谷歌AI用19秒答完一道IMO几何题，差1分即可摘金谷歌ai翻译人工智能imo大语言模型deepmind

2024人工智能AI问答题110道（14页）

ai智能答题助手免费AI智能问答小助手推荐

响应“人工智能+”，百所高校将与飞桨和文心联办AI主题开学季

AI参加北京中考，看他们的作文能考多少分？业界资讯

百度问答ai智能答题脚本

人工智能和教育的融合主要表现为什么常见问题

AI人工智能可以取代哪些会计岗位？正保会计网校

邀请你参加2023年第三届全国大学生人工智能知识竞赛

AI答题真有智能吗？聊聊ChatGPT印象

AI问答月入过万？小心别上当！

人工智能AI挑战高考试卷，结果这次人类赢了！腾讯云开发者社区

关于举办2024年第四届全国大学生人工智能知识竞赛的通知–江苏省人工智能学会

窃取个人数据？OpenAI遭集体诉讼！