钭晓东:论生成式人工智能的数据安全风险及回应型治理东方法学202305算法

【作者】钭晓东(浙江大学光华法学院教授、博士生导师,浙江大学新时代枫桥经验研究院教授)

内容提要:生成式人工智能语料库的大规模流动、聚合和分析带来前所未有的数据安全风险,其范围涵盖了数据输入、运算、存储和输出的全过程。这些风险带来的威胁包括但不限于数据主权、意识形态安全、网络安全等方面,甚至危及国家安全。应当革新生成式人工智能数据安全治理范式,实现从单一安全到总体安全、从网络主权到数据主权、从绝对安全到相对安全的理念转变,并在此基础上进行回应型治理:以风险管控、算法透明原则、多层次的数据管理保障机制以及技术、标准与法律三元架构的生成内容治理机制为应对手段,分别对语料库非法获取、恶意算法操控、重要数据泄露、恶意内容生成风险进行治理。应当加强非传统安全领域法治建设,积极参与塑造非传统安全风险治理的国际规范。

关键词:生成式人工智能;ChatGPT;数据安全;风险管控;数据治理;国家安全

目次一、问题的提出二、生成式人工智能应用中的数据安全风险三、生成式人工智能数据安全治理的范式转型四、生成式人工智能数据安全风险的回应型治理

问题的提出

为此,学界针对生成式人工智能中的数据安全问题进行了一定的研究,并提出了构建生成式人工智能数据安全风险治理的元规则,从回应型治理转向数据安全的敏捷型应对,从制度和技术层面协同推进AIGC领域数据可信治理等一系列应对措施。然而,目前大部分学者只是在讨论生成式人工智能技术风险时附带提及数据安全问题,尚未有详尽、专门的研究来深入阐述生成式人工智能数据安全问题的特殊性以及可能引致的其他国家安全层面的严重后果。这导致对该问题的研究显得过于笼统,甚至脱离了生成式人工智能这一应用场景。还有一部分学者针对生成式人工智能的信息内容风险及治理展开了大量研究,但从其治理措施来看却忽视了信息内容风险始终源于数据安全这一本质性问题。鉴于此,本文拟在生成式人工智能应用各个环节中,对其数据安全风险进行详细剖析,同时结合当下数字时代背景和生成式人工智能技术本身的特点,探讨生成式人工智能数据安全风险治理的范式转型,最后提出生成式人工智能应用中数据安全风险的回应型治理路径,以期对该领域的数据安全问题作出更为深入的研究与分析。

生成式人工智能应用中的数据安全风险

生成式人工智能强大的学习能力离不开海量数据汇聚形成的语料库,语料库数据的输入、运算、存储与输出均可能引致不同程度的数据安全风险,这些数据安全风险贯穿应用的全过程,兼具瞬时性和破坏性,直接或间接地挑战着我国数据主权,成为影响国家安全的新型隐患。厘清生成式人工智能应用中的数据安全风险,是明确风险治理需求的基本前提。

(一)数据输入端:语料库非法获取风险

生成式人工智能需要利用大量数据输入训练自然语言模型,这有助于模型获取知识并构建语料库,从而能够准确理解自然语言并生成标准答案文本。显然,生成式人工智能的存在基于海量数据信息形成的语料库。在构建和更新语料库的形式方面,可以将其分为被动和主动两种类型。被动构建与更新的语料库是大量用户通过对话框自行输入信息、系统自动将该类信息保存并纳入的语料库。主动的语料库构建与更新则以数据爬虫技术为典型,数据爬虫技术可以通过程序自动收集互联网上的大量数据,这种数据收集方式的优点在于其能够快速、高效地获取大量的数据,使得模型的训练和表现更加准确和可靠。

(二)数据运算端:训练数据偏见风险

生成式人工智能文本生成由其自然语言模型所决定,而自然语言模型在本质上取决于算法选择以及用于模型训练的庞大数据库,这使得模型开发者能够通过裁剪数据库或操控算法的方式,将自己的偏好植入训练数据,从而使输出的文本呈现某种价值观。

与其他语言模型一样,ChatGPT并不是一个没有偏见的工具。它对世界的“认识”取决于算法,或者说设计者所作的决定。例如,使用哪类数据进行文本训练或使用何种生成方式进行内容回复。这也可从ChatGPT运行原理中得到印证。为了确保ChatGPT输出信息的高度准确性,OpenAI实施了一种“人类反馈强化学习”训练方法:开发主体从GPT中选取样本,对其进行人工标注,并利用评分结果来训练反馈模型。通过对反馈模型和原模型进行对抗强化训练,可以持续优化原模型的输出结果,最终得到一个符合人类语言习惯、偏好和价值观的语言生成模型。此类模型生成机制可能造成以下隐患:生成式人工智能开发机构可能出于特定的政治目标或其他利益考量,使用带有偏见的数据样本进行语言模型训练,使生成的回复文本完全符合其意识形态标准,从而“潜移默化”地影响用户,使用户思想或行为偏好向着有利于自身方向发展。因此,生成式人工智能中的数据偏见风险将可能带来极为严重的安全后果。

在当今全球各种思潮、文化和价值观念相互碰撞的背景下,人工智能技术面临着被政治操纵、用作意识形态宣传的风险,应当对此始终持谨慎态度。西方发达国家掌握大数据和人工智能核心技术,按照其自身价值观制定全球政治秩序和规则,裁剪符合自身意识形态标准的数据库,加剧了全球信息体系和政治秩序中的不平等和垄断现象。在这种背景下,生成式人工智能的开发者可以通过操纵算法或裁剪数据库的方式,在模型中植入某些价值观。如果开发者持有历史错解、文化偏见或种族歧视的价值观,这些观念可能会通过模型与用户的互动产生潜在的不利意识形态影响。在当今高度互联的社会中,意识形态安全已经不再是单纯的意识形态问题,而是关系国家安全和稳定的核心议题。近年来针对意识形态的渗透和干扰事件不断发生,再一次给我们敲响了警钟。

(三)数据存储端:数据泄露风险

在生成式人工智能中,由于训练数据的规模直接影响模型的表现和性能,生成式人工智能通常具有相对较大的的数据体量。以ChatGPT为例,其拥有超过1750亿的参数,庞大的数据体量决定了一旦发生数据泄露事件,将造成难以挽回的损害后果。具体而言,在生成式人工智能语料库中,个人数据泄露可能导致大范围的隐私和著作权侵权,企业数据泄露可能导致不正当竞争或商业秘密泄露,政府数据泄露则将带来更为严重的损害后果,包括侵害“重要数据”安全和“国家秘密”安全等特别利益。

(四)数据输出端:恶意内容生成风险

生成式人工智能数据安全治理的范式转型

(一)从单一安全转向总体安全

大数据时代悄然而至,伴随着数字技术带来的各种机遇和挑战,数据安全问题逐渐走进大众视野,并日渐彰显出对国家安全和社会公共利益的重大影响。2021年,全国人大常委会正式颁布数据安全法,明确提出“维护数据安全,应当坚持总体国家安全观”,对数据安全进行了全方位、系统化的规定。

正是在数据安全备受瞩目的时代背景下,生成式人工智能的出现进一步促进了大规模的数据交换和存储,再一次将数据安全问题推向风口浪尖。生成式人工智能应用中的数据安全风险,尤其危及国家数据主权、国家意识形态安全、国家信息安全及网络空间安全等问题。若说非传统安全的兴起促进了我国关于“国家安全”的思维转变,则生成式人工智能的出现将对“国家安全”带来更深一层的变革与重构,迫使“国家安全”理念基于现代科技的发展变得更为全面综合。

(二)从网络主权转向数据主权

生成式人工智能数据安全治理的根本指针在于坚持数据主权,而要理解数据主权,则须从更为广阔的范畴——“网络主权”着手。自美国棱镜计划曝光,各个主权国家的网络主权意识被唤醒,开始就网络主权斗争达成共识。对中国而言,网络主权更被提到空前高度。2015年我国国家安全法第25条首次以法律形式明确“网络空间主权”。2016年网络安全法第1条开宗明义申明了“维护网络空间主权”的立法主旨。2017年我国发布《网络空间国际合作战略》,全面阐述网络空间主权原则的基本涵义,同时呼吁国际社会共同维护和平、安全、开放、合作的网络空间,共同推进网络空间治理国际规则的制定。

根据网络空间主权架构,网络空间主权涉及网络空间物理层、网络空间逻辑层和网络空间内容层三个层次。区别于物理层(光缆、卫星通信、能源、交通等基础设施)和逻辑层(互联网寻址、域名系统、路由协议等技术规则和标准)更多涉及技术问题,内容层主要涉及信息管理和数据流动规制,是各国论战的主要领域。随着互联网迅速发展和普及,信息技术在政治、经济和文化等领域应用逐渐成为国际安全格局发生重大变化的关键因素之一。在这一时期,信息攻击、操纵和破坏以软暴力的形式不断威胁着社会稳定和安全,成为全球面临的共同挑战之一。为此,各国政府开始采取行动,将信息安全作为一项紧急任务,与计算机和网络紧密结合在一起,作为法律治理重点。

(三)从绝对安全转向相对安全

此外,总体国家安全观辩证地认识了安全与发展的关系,强调“发展是安全的基础,安全是发展的条件”,从而放弃追求绝对安全,保障相对安全。在数字化浪潮中,数据成为经济和社会发展的重要基石和创新驱动力。数据创新融合了人工智能、物联网、区块链等前沿技术,正在重构人类社会和产业形态。我国的网络安全法和数据安全法均明确规定了数据开放和利用的政策支持,特别强调了匿名化数据的自由利用。这为企业拓展数字化业务和推动技术创新提供了重要机遇。生成式人工智能以数据为燃料,为人类提供了前所未有的创造力和生产力。因此,我们需要辩证看待其中的数据安全与发展问题,采取相应的安全措施,保障数据的隐私和安全,并利用好数据这一宝贵资源,推动社会和经济的可持续发展。

生成式人工智能数据安全风险的回应型治理

面对生成式人工智能正逐步呈现的弥散性扩张数据安全风险,构建全方面、多层次、重实效的生成式人工智能数据安全法治体系已刻不容缓。而这无疑也是当前国家高水平安全时势诉求的内在应有之义。

(一)输入端:以风险管控为核心,强化数据安全风险应对机制

数据安全范式的核心要素是“可控性”,强调将数据的大规模流动、聚合和分析纳入风险管控过程中的必要性。根据国际标准化组织(ISO)颁布的风险管理标准,一般认为存在以下四种风险管控策略:避免风险、接受风险、转移风险、控制风险。鉴于绝对安全不可能存在,对待生成式人工智能带来的数据安全风险,无需做到完全消除。适当接受残留风险的存在,同时最大限度地进行风险控制,既能实现成本最小化,也有利于维持安全与发展的平衡,应当是最优策略。

从风险产生的角度看,只有通过对高度敏感的“重要数据”进行关联和分析,才可能挖掘出危害安全的重要情报。因此,实现对重要数据流动和聚合的有效控制,避免生成式人工智能对这些数据进行恶意整合和分析,可以大大减少数据恶意利用带来的危害。从实现风险源头的有效控制角度看,有以下两点思路:一是在数据分类分级基础上,加强数据的被动出境治理,避免重要数据被非法纳入生成式人工智能语料库,进而被不当披露和聚合分析;二是完善生成式人工智能的市场准入制度,从源头降低该类应用的安全风险。

1.加强数据被动出境治理

针对以非法数据爬取为主的攻击风险,我们需要采取主动防御措施,以预测、发现和防范潜在的安全威胁,实现数据被动出境的主动管理,从而有效降低生成式人工智能技术给我国带来的安全威胁。具体来看,需要采取以下措施:

2.强化生成式人工智能市场准入规则

(二)运算端:以算法解释为关键,完善算法运算透明原则

欧盟地区和美国已经较早践行了算法透明原则并将算法解释权法定化。其启示意义在于生成式人工智能中算法透明原则的落实不能完全依赖于可解释权,还应辅之以算法影响性评估等事后规制措施。此外,除了以算法透明原则的落实来回应恶意内容生成风险,还应当作好事后应对与惩处,尤其是要求平台建立辟谣和举报机制,并对违法传播虚假有害信息者采取停止传输等限制措施。

(三)存储端:以重要数据安全为中心,夯实数据管理保障机制

针对生成式人工智能数据存储端的重要数据泄露风险,可从事前的数据保护与事后的应急处理两方面入手,对生成式人工智能系统开发机构科以数据处理环境安全保障义务和数据安全突发事件应急义务,夯实生成式人工智能数据管理保障机制。

1.数据处理环境安全保护义务

2.数据安全突发事件应急义务

确立生成式人工智能开发机构数据处理环境安全保护义务可以提高其数据安全保护能力,并有助于建立全方位、多层次的语料库数据管理体系。然而,即使如此,仍然不能完全避免数据泄露等安全事件的风险。因此,生成式人工智能开发机构需要建立健全应急预案,以及时响应、处置和报告数据安全突发事件,最大程度保障用户数据的安全。应急预案的制定应当遵循数据安全法等法律法规要求,包括但不限于以下内容:

(三)输出端:从技术、标准、法律三元层面,优化生成内容治理体系

恶意内容生成风险广泛存在于生成式人工智能数据输出端,如同一种渐进式的毒瘤,对人工智能技术发展和社会稳定、国家安全造成威胁。为此,需要从技术、标准和法律三元层面,优化生成内容治理体系。

其一,在技术层面,应当加强对生成式人工智能算法的研究,改进其生成机制,以确保其生成的数据符合道德和法律标准。生成式人工智能开发机构可以通过训练和调整生成式人工智能模型,提高其识别和过滤恶意内容的能力,从而降低恶意内容生成的风险。具体而言,可以利用自然语言处理和机器学习等技术手段,通过对恶意内容的检测和屏蔽来防止其出现在生成的数据中。此外,建立黑名单机制,对已知的恶意内容进行记录和管理,从而可以更加有效地屏蔽其出现在生成的数据中。

其三,除了在技术和标准层面进行治理外,应针对恶意内容生成风险加强相应的立法和监管。例如,欧盟在2021年发布了《欧洲人工智能法规框架》,其中就对人工智能技术内容生成进行了规范。该法规要求开发者和提供者对其技术的应用进行评估和风险管理,确保其生成的内容不包含任何具有欺骗性、误导性、令人厌恶、令人不安等信息。我国《互联网信息服务深度合成管理规定》也为加强对恶意内容生成风险的管理和治理提供了详细和具体的法律依据。《生成式人工智能服务管理暂行办法》更是通过多条规则对生成内容的准确性、合法性、正当性以及违反规定应承担的责任进行规定。这些规范将使开发者和提供者更加负责任地使用人工智能技术,避免生成有害或欺骗性内容。未来,我们需要进一步加强对上述规定的执行和监督,推进以“‘风险预防规则’和协同治理模式为核心的”“全过程治理”,以便促进生成式人工智能技术的健康发展。

THE END
1.应用法律系介绍3.法律事务(公证仲裁方向) 培养目标:培养德、智、体、美、劳全面发展,践行社会主义核心价值观,主动适应依法治国和经济社会发展的要求,服务地方法治建设、社会建设和生态文明建设,具有科学思维方式,具有较高文化水平、良好的职业道德和人文素养,掌握法律事务专业的公证、仲裁等基本知识,具备法律事务专业的公证、仲裁主要技http://fl.helc.edu.cn/info/1013/1336.htm
2.法律事务专业一、法律事务专业是什么? 法律事务主要研究法学、秘书学、管理学等方面的基本知识和基本技能,具备法律服务、司法文秘、司法行政辅助管理等工作能力。法律事务可以说是司法助理、法律文秘两个专业的总和,三个专业交叉内容比较多。 关键词:文秘 助理 司法 律所 https://m.gaokao.cn/gk-mb/22/1063
3.法律事务专业就业方向未来出路有哪些法律事务专业的毕业生可以在公检法、基层法律服务机构、街道社区、律师事务所、企事业单位、社会团体、***机关等部门的一线工作岗位,从事法律服务、司法文秘以及司法行政辅助管理等实际工作。 法律事务专业就业方向 就业方向一:典型职业通路:律师助理→律师→事务所合伙人 https://www.55xw.net/show-57922.html
4.面向数字时代的法律实践教学体系创新然而,法律人职业的特殊性、法律本身的特性、法治的效果与前景,都对法律人在整个法治社会发展过程中提出很高的职业伦理要求,单纯的技能课并不能满足法律人成长需求。法学专业本身带有很强的政治属性,切实发挥法学教育的思想政治教育功能是德才兼备高素质法治人才培养的应有之义。人工智能的发展,推动了智慧法治建设,很多https://www.cssn.cn/skgz/bwyc/202412/t20241212_5820758.shtml
5.隆阳区人民政府办公室关于印发隆阳区“十四五”民政事业发展规划第六节 智慧民政服务体系工程 第五章 保障措施 第一节 强化组织领导,落实任务保障 第二节 加强法治建设,完善制度保障 第三节 加大财政投入,强化经费保障 第四节 加强人才建设,完善专业保障 第五节 加快信息化建设,强化技术保障 前言 民政事业是以人民为中心,以保障民生、维护民利、落实民权为主线,事关党和政府形https://www.longyang.gov.cn/info/15875/13588409.htm
6.2024年自主招生专业介绍(文字版)应用法律学院设有由法律事务(律师事务)、法律事务(金融法律实务)、行政执行、法律文秘、刑事执行(司法助理)等五个专业组建的“智慧司法”专业群,“智慧司法”专业群成功入选北京市职业院校特色高水平骨干专业群建设项目。学院长期为首都地区政法系统培养司法辅助人才(书记员、法官助理、律师助理、公证员助理等),专业基础http://zs.bcpl.cn/zzzs/6662953e418349d28614f6796b81b5cd.htm
7.解志勇:数字法治政府构建的四个面向及其实现观点政府作为行政主体,遵循主体、权限、内容和程序法定等法治原则进行运作,在管理国家和社会事务时,自觉落实职权法定主义要求。从法治政府到数字法治政府,变的是技术维度的数字化政务管理和决策模式,但必须传承的是法治维度的职权法定运作逻辑。数字法治政府履职仍然应当依照宪法等法律的明文规定行使法定权力,履行法定责任,同时https://www.echinagov.com/viewpoint/340853.htm
8.智慧法治:AI技术如何赋能法律行业创新ai赋能法律工作课程智慧法治:AI技术如何赋能法律行业创新 作者简介:阿里巴巴嵌入式技术专家,深耕嵌入式+人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方向的学习指导、简历面试辅导、技术架构设计优化、开发外包等服务,有需要可私信联系。https://blog.csdn.net/g310773517/article/details/138728221
9.国家点名!深圳“全球海洋中心城市”要来了!一口气规划了11个海洋国际海洋高端人才汇聚,海洋科技自主创新能力显著提升,部分技术全球领先;陆海统筹联动基本形成,海洋生态文明建设及绿色发展位居全国前列,海洋城市文化特质更加鲜明;对外合作取得积极成效,深港海洋协作纵深推进,在粤港澳大湾区海洋事务中发挥引领作用,在国际海洋事务中初具影响力;海洋综合管理水平国内领先,全球海洋中心城市建设https://www.sztv.com.cn/ysz/zx/hy/hydt/79004542.shtml