毕文轩生成式人工智能的风险规制困境及其化解:以ChatGPT的规制为视角

作者:毕文轩(东南大学法学院讲师,东南大学人权研究院助理研究员,法学博士)

出处:《比较法研究》2023年第3期

一、生成式人工智能工作原理及其引发的法律风险

生成式人工智能(GenerativeAI)是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。其是一个无监督或部分监督的机器学习框架,并通过使用统计学、概率等生成人工遗迹。不同于以往的人工智能,生成式人工智能不仅能够提炼信息,还可以通过利用现有的数字内容检查训练实例创建人工遗迹并学习其模式和分布。ChatGPT作为生成式人工智能的典型,其语言模型由OpenAI公司开发。从2018年至今,OpenAI已陆续推出GPT、GPT-2、GPT-3、GPT-4以及图像预训练iGPT等模型,并迅速火遍全球。包括DeepMind、谷歌、商汤、阿里等国内外科技企业也都开发了自己的语言模型并对大模型进行了全面的布局与投资。

01

(一)生成式人工智能工作原理阐释

生成式人工智能目前包含两种类型:生成式对抗网络(GenerativeAdversarialNetwork,GAN)和生成式预训练转化器(GenerativePre-trainedTransformer,GPT)。其中,GAN是常用的生成建模人工智能技术,其运行需要使用生成器和判别器两个神经网络的共同作用。GPT则是通过使用大量公开的数据来阅读并生成类似人类的文本,其被设计用来根据给定的提示或上下文语境生成类似人类的文本。为了更好地理解并阐述ChatGPT的法律风险及其化解策略,本文将对ChatGPT的基本工作原理作简要剖析:

ChatGPT是一个由OpenAI训练的大型语言模型(LLMLargeLanguageModel),其是大模型在NLP领域不断发展的一种结果。根据OpenAI官方介绍,ChatGPT的生成机制分为如下四个阶段(见图1):(1)对人工智能进行数据喂养来锻炼其自动生成后续文本的能力。通过让人工智能在海量数据中学习文字接龙,并将人工智能的回答与语料中下文的内容做对比。(2)收集人类数据并进行监督。研究人员让人类就一些问题写出答案,并将这些问题和答案交给GPT学习并优化其模型,以引导人工智能往人类期望的方向作答。(3)收集对比数据并训练奖励模型。研究人员让GPT对特定问题给出多个答案,并由人类来对这些答案的好坏做排序。基于这些评价数据,研究人员训练出一个符合人类评价标准的奖励(reward)模型。(4)强化学习算法针对奖励模型优化策略。这一阶段人工智能在进行自我学习的过程中,同时不断地根据奖励模型的反馈来优化自身的产出结果,以实现通过GPT的自我学习与优化。

(二)生成式人工智能引发的潜在法律风险

根据对生成式人工智能技术原理的剖析,生成式人工智能所带来的法律风险主要包括如下四类:

1.数据合规风险

我国当前的数据合规体系是建立在以网络安全法为代表的网络安全体系、以数据安全法为核心的数据安全体系和以个人信息保护法为核心的个人信息保护体系之上,三者共同构建了我国的数据合规法律体系框架。数据的合规要求数据处理者在处理数据时应保障数据安全、网络安全和个人信息安全,并采取必要措施,以确保用户数据处于合法使用和获得有效保护的状态。生成式人工智能在我国法律体系下数据合规风险具体体现在如下四方面:

(4)训练数据的准确性风险。由于ChatGPT训练的前期阶段,被投入数据的内容来自于开发者从网络中的获取与选择,由此便可能产生因数据的缺失或错误而导致最终呈现的内容不准确。具体而言,如果投入大模型中训练的数据无法保证能够涵盖所有可能的语言或命题,或者来自于网络公开环境中的数据如果存在有虚假的、误导性的或者错误的信息,那么当这些数据被输入大模型中加以训练就会导致其输出错误的结果。例如,如果ChatGPT在训练时使用的数据忽略或者歪曲了某些重要的历史事实,那么当有人对这些事实进行提问时将会从中获得错误的结果,并可能对其历史观的形成产生影响。因此,如不对生成式人工智能事前训练的数据质量加以监督,那么其所提供的不准确信息将会导致使用者的错误认知,尤其对于青少年等尚未建立正确价值观的群体而言,将会产生极大的负面效应。

2.生成内容滥用风险

3.算法滥用风险

其二,算法偏见与算法歧视。除了算法的可解释性风险外,由于数据偏见所导致的算法偏见或算法歧视现象也需要格外注意。如果生成式人工智能的前期训练的数据存在某种程度的偏见或者歧视,那么经由算法机制产生的回馈结果自然也会存在此种偏见或歧视,甚至生成式人工智能的使用还会进一步延续和放大此种负面效果。例如,来自代表性不足群体的学生可能会因为用于训练ChatGPT的训练数据偏向于某类人群而使他们的论文得到不公正的评分,可能导致这些在教育方面已经处于劣势的人群被更加边缘化。此外,ChatGPT等语言模式还可能会传播和放大歧视和偏见,这也是使用生成式人工智能不容忽视的又一风险。例如,如果用来训练它的数据对特定群体存在不利的偏见,在ChatGPT不断自我学习的过程中此种偏见就会被不断强化,可能导致这些人群遭受比以前更加严重的歧视。

其四,算法可问责性风险。在技术中立的背景下,算法往往由于价值缺失、设计缺陷或信任危机而产生严重的算法风险。但是,对算法进行问责就需要具体呈现算法造成的实际损害,并在算法实施者与算法侵害者之间建立必要的因果关系。因为虽然许多算法的具体行为可能会给公众利益带来一定的侵害,但这种侵害有时仅表现为一种可能性而并非现实发生,有时又仅仅是若干侵害原因中的一种,故而很难将其的实施与最终的损害之间建立起直接关联。此外,即便可以证明算法的实施与损害后果之间的关系,仍存在现实的操作困境,即如何规避算法开发者的商业秘密抗辩,并合比例性的实施算法的评估工作,而非为了评估频繁地中断算法的运行。换言之,对于生成式人工智能实施过程中可能产生的算法侵害而言,现有法律规范一方面缺乏必要的损害认定和归责机制,另一方面也缺乏一种对于算法进行持续性评估并将负面影响降到最低的风险防范机制,这就对大模型算法的最终可问责性成立带来了诸多障碍。

4.其他风险

(1)隐私保护风险

(2)导致数字鸿沟加剧

综上,生成式人工智能之所以可以实现更高层级的智能呈现,得益于对其提供的海量数据训练和模型的自学习能力。但恰恰是大模型在数据挖掘与机器学习的过程中,又会带来新的法律风险。

02

(一)生成式人工智能风险规制的现状

1.宏观层面:人工智能监管和治理规范已经形成初步框架

随着学界和业界对人工智能认识的逐步提高,我国当前阶段对于人工智能的监管和治理规范已经形成了初步的框架,这具体表现在如下三方面:

其二,我国当前已初步形成了包含法律、部门规章、地方性法规、国标、行业自律标准的多层次治理规范结构,形成了从中央政府到地方政府以及行业组织的分级别、多层次的治理内容框架体系,形成了包含强制约束力的制定法(硬法)与新型行业自我规制的自规范准则(软法)相结合的综合治理体系(见图2)。

图2我国当前阶段人工智能治理的内容框架

其三,我国目前阶段对于人工智能的治理规范主要集中于确保人工智能的安全性、使用的透明性、算法的可解释性以及符合伦理性等方面。此外,由国家网信办、工信部、公安部等联合发布的《互联网信息服务深度合成管理规定》对于深度合成技术与服务的的主体责任和义务给予了进一步明确,这对于后期具体到生成式人工智能的规范治理而言具有重要的参考价值。

2.微观层面:《办法》提供了更加明确的监管指引

(二)利用现有法律规范进行规制的体系性漏洞

虽然我国近年来出台了一系列有关人工智能的治理规范,甚至一些规范在全球范围内也是处于领先地位。但是,相比于来自现实层面的监管诉求,我国当前的规制体系仍然存在着许多不足和漏洞。

1.在治理主体方面,监管主体过多且难以形成监管合力

当前,我国对人工智能的监管主要呈现多头监管的现状,有关部门包括国家市场监督管理总局、国家互联网信息办公室、工业和信息化部、科技部等。如此设置当然是考虑到了人工智能所导致的风险会涉及多个领域,故而在不同领域实施监管并制定相应的政策自然需要以各部门的专业性作为依托。但是,过多的主体都参与到治理过程中会产生新的问题,例如监管的竞争与推诿,即对于可能存在潜在利益的事项各个部门可能会争相制定相应的监管政策,并积极推动执法工作;而对于情况复杂、涉及面广且潜在利益不足的事项,各个监管主体则可能会选择避而不谈。如此“九龙治水”的治理模式既无法为治理目的的最终实现提供全面的支持,还可能会造成治理资源的分配不均,不同监管规则冲突抵牾,进而影响行业竞争格局与公共利益。此外,虽然国家层面也通过成立人工智能治理专业委员会等机构来实现对多头监管矛盾的协调,但囿于该组织的级别及其非实体性属性,对于当前阶段的人工智能治理工作还无法实现实质层面的统一指导,也不利于实现人工智能的可信治理目的。

2.在治理规范的设置方面,存在规范不完备、规定过于笼统或效力有限的问题

其次,当前的人工智能治理规范仍过于笼统。例如《办法》第4条虽然规定利用生成式人工智能生成的内容应当真实准确,但该条在生成式人工智能的使用过程中就存在一定的解释分歧,即数据处理主体对于数据的不完备使用行为是否需要其主观存在过错。具言之,用于大模型训练的数据可能并非总是完整的,若该大模型开发者不知情,那么生成式人工智能依据不完整数据训练所生成内容给当事人造成的利益损害是否可以直接要求其担责就存在争议。又如,《新一代人工智能伦理规范》要求人工智能在数据采集和算法开发中,要尽量避免偏见,努力实现普惠性、公平性和非歧视性。但对于应当如何评估是否达到了普惠性和公平性,或者应当如何就是否构成歧视进行认定却依然没有相对详细的参考,这给现实中的监管实施带来了困难。

3.在治理手段方面,缺乏行政监管、司法审查与企业自治的协调和统合

由于人工智能本身具有专业性和复杂性特征,故而对其治理就需要体现多主体的共同参与,需要依赖包括政府、行业组织、企业以及公众等多方主体参与,从而构建全面而有效的治理模式。具体而言,政府通常需要借助司法机关、企业、技术专家等的帮助,以形成技术优势与信息优势,而其中企业的自我规制发挥着重要价值。由于企业作为人工智能技术的投资者、开发者、使用者,其掌握了资金、技术、人才、市场等多方面的资源和信息,将其纳入到治理过程会极大地提高治理的效率。同时,由于人工智能企业在运转过程中既得到了国家层面的政策扶持,也利用了公众所让渡的个人数据,这也在一定程度上构成了其承担必要社会责任的基础。因此,需要企业主动发挥自我规制的作用,协助政府行政监管,推动人工智能治理规则与治理标准的构建,避免自身技术被滥用并造成公众利益的损害。此外,司法审查同样也是一个重要的治理手段。具体而言,公开的法院裁决,可以让公众更好地知晓某种行为的不法性,从而实现一定的威慑作用。同时,相比于行政执法“运动式”所带来的不稳定效果,司法裁判所具有的稳定性可以推动社会和行业树立正确的经营观和价值观,更好地重塑治理的价值目标。

4.在治理规则适用方面,知情同意原则、目的限制原则与诚实信用原则存在适用困境

第三,诚实信用原则存在极易被滥用的风险。作为传统民法帝王条款的诚实信用原则,自其产生以来就存在过于笼统抽象、适用边界不清晰、缺乏对于现实的具体指导作用等问题,这些问题在当前人工智能企业的数据获取方面也同样存在。例如,应当如何判断企业获取个人信息的行为是否有悖于诚信原则,在不同场景之下对处理个人信息的诚信原则解释是否存在区别等依然有很大争议。由于缺乏必要的指引标准和类型化分析,贸然放开对诚信原则的适用控制,必然导致实践中大量纠纷向一般条款逃逸,从而导致诚信原则被滥用的现象产生。这不仅会影响执法相对方的合理预期,还会破坏监管双方之间的信任,损害法律的权威。

(三)比较法下生成式人工智能风险规制的经验镜鉴

随着生成式人工智能技术的发展与运用,欧盟和美国也在监管层面对其予以高度重视,并相继出台了一系列法案用以规制其可能产生的风险。二者在人工智能治理领域既存在相似的经验,也存在不同的选择。

1.欧盟:先规范后发展,稳步推动监管

2.美国:审慎监管以促进产业创新

综上,欧盟与美国的制度探索为我国当下实现人工智能的良性治理提供了富有启发性的思路,但这些制度方案的实际效果还有待实践检验。结合我国当前的产业现状,我国的人工智能治理应当在坚持鼓励技术创新的同时侧重保护个人信息和防范风险,探寻具有中国特色的治理策略。

(四)生成式人工智能法律风险加剧的深层次原因剖析

在生成式人工智能技术不断迭代更新的背景下,以数字技术为核心的数字经济正在蓬勃发展,但同时也带来了诸如数据安全、算法滥用等诸多风险。对于数字经济的风险治理模式,国际上通常存在回应型治理模式、集中型治理模式以及敏捷型治理模式等三种模式。由于我国当前还处于数字经济治理模式的转型过渡期,在选择何种治理模式实现对人工智能产业的治理政策方面仍然存在一定的分歧,进而导致在政策制定与监管执行方面仍存在较多冲突抵牾,这也是当前生成式人工智能法律风险加剧的深层次原因。因此,选择更加符合我国当前技术需求与经济发展的风险治理模式,才是引导科技向善、化解由此产生的风险的关键步骤。

其次,集中型治理模式由于过于强调权力集中和统一执行,也不符合我国当前的治理需求。所谓集中型治理模式,是指有关监管部门为了应对风险不集中、不及时等问题,而采取加强行业整体监管,强调等级划分和权力集中,积极落实制度监督和制度保障的一种治理模式。该种治理模式更强调事先治理的必要性,体现了监管部门从追求技术高速发展到兼顾技术高质量发展的理念转变。总体来看,我国当前对人工智能的治理即属于此种集中型治理模式,一方面体现在我国数据安全法、网络安全法、个人信息保护法等法律法规的制定和实施;另一方面也体现在监管部门对人工智能等新兴技术产业的强监管态度,例如执法部门对于滴滴的数据安全审查、对于阿里“二选一”行为的处罚等均体现了此种集中型治理模式的特征。需要注意的是,虽然集中型治理模式可以较好地实现对技术风险的有效监管,但由于该种治理模式实行严格的事前干预机制,缺乏必要的监管弹性,可能会压制市场创新活力,提高整体的治理成本,并导致资本对科技的支持出现偏离。

03

(一)正确认识并协调“破坏性创新”与“试验性监管”之间的关系

生成式人工智能所带来的破坏性创新,倒逼人工智能治理的监管改革,催生“试验性监管”及其他监管模式。所谓“试验性监管”即是强调监管方式的柔性和灵活性,开辟制度的“缓冲带”,引导新技术、新商业模式在经过试验并确定其最适宜的监管强度后施以最合适的监管政策。监管者应当以前瞻性视角去审视科技创新,并以包容审慎的监管策略去挖掘技术创新的潜力,进一步激发其中的技术红利。我国在2020年之前对数字经济所采取包容审慎的监管方式也正是考虑到由数字经济所引发的破坏性创新的积极效果。“所谓‘包容’,就是对那些未知大于已知的新业态采取包容态度,只要它不触碰安全底线。所谓‘审慎’有两层含义:一是当新业态刚出现还看不准的时候,不要一上来就‘管死’,而要给它一个‘观察期’;二是严守安全底线,对谋财害命、坑蒙拐骗、假冒伪劣、侵犯知识产权等行为,不管是传统业态还是新业态都要采取严厉监管措施,坚决依法打击。”当然我们不能忽视的是,面对科技创新,监管不力会导致风险的进一步累积;而监管过度又会制约创新。因此,只有在科技监管与科技创新间寻找平衡才能实现生成式人工智能治理效果的最优化。

THE END
1.轻松理解ChatGPT原理详解:大白话解析,一文搞定!ChatGPT是怎么学习的? 先说说ChatGPT的核心部分:GPT(全称是Generative Pre-trained Transformer,里面的P和T我们一会儿会讲到),这是一个由OpenAI开发的大语言模型(LLM)。 接下来,理解ChatGPT的原理得先了解它的核心架构。ChatGPT的核心架构是Transformer(也就是ChatGPT中的T),一种神经网络架构。好比人类大脑的工作方式https://blog.csdn.net/2401_84204413/article/details/145262121
2.如何使用ChatGPT原理学会一切东西?(这就是ChatGPT)书评加上前面推荐了wolfram 大神的神书《这就是 ChatGPT》,于是觉得有必要写点类似读书笔记或书评的东西。李沐的文章写于ChatGPT 之前,是结合随机梯度下降来讲人生道理的,我这篇准备从ChatGPT 原理出发,聊一聊 GPT对人类学习、构建个人知识体系的启发。以此文致敬两位大神。李沐的文章微言大义,只用了 1100 字。我https://book.douban.com/review/15907823/
3.速围观ChatGPT原理是什么?技术小白就能看懂的ChatGPT原理介绍它是基于GPT模型改进优化而来的,主要应用于对话场景。它本身也是一个大型语言模型,可以生成各种文本类型,但是ChatGPT特别专注于对话的生成。 通过上下文的理解,ChatGPT能够像人类一样自动生成文本对话。下面这张图是OpenAI官方介绍的ChatGPT原理图,接下来我会按照这几步为大家解释。 https://mdnice.com/writing/e87d75a17b584402a4f84151a68162b4
4.ChatGPT原理理解和结构解读〖前言〗问了200+个问题后,终于完全搭建起来对Chat@GPT本身的原理理解和结构了解,形成的理解文件90%的内容都是他生成的。但是结构化这篇文章以及深入时刻,是自己完成的。今后的学习和工作可能都需要和他来共同完成了。 1 从概率角度理解生成式模型原理 https://www.jianshu.com/p/0628b1bd2c48
5.科学网—ChatGPT技术原理【6】科学网—深度学习基本原理 - 徐明昆的博文 (sciencenet.cn) 【7】Chat GPT原理_GarsonW的博客-CSDN博客 [8]详解AIGC人工智能生成内容的原理 (baidu.com) 【9】低成本复制 ChatGPT 训练流程 【10】ChatGPT实现原理-电子发烧友网 (elecfans.com)https://blog.sciencenet.cn/blog-537101-1377332.html
6.五分钟带你了解ChatGPT的基本原理五分钟带你了解ChatGPT的基本原理 简介: What is LLM? LLM是大型语言模型Large Language Model的缩写,跟LLM相关的另外一个概念是NLP(Natural Language Processing自然语言处理技术的一种 )。 Nautual Language: 指的是自然形成的语言,诸如Chinese, English, etchttps://developer.aliyun.com/article/1191601
7.人人都懂的ChatGPT指南:原理价值应用理解原理是有效应用的第一步。ChatGPT是基于GPT模型的AI聊天产品,后文均简称为GPT。 从技术上看,GPT是一种基于Transformer架构的大语言模型(LLM)。GPT这个名字,实际上是'Generative Pre-trained Transformer'的缩写,中文意为“生成式预训练变换器”。 1.大模型和传统AI的区别是什么? http://www.360doc.com/content/23/0730/08/37102638_1090546201.shtml
8.万字干货:ChatGPT的工作原理(2023).pdf万字干货:ChatGPT的工作原理(2023).pdf 107页VIP 内容提供方:Seeker研报 大小:4.93 MB 字数:约2.86万字 发布时间:2023-05-05发布于北京 浏览人气:10 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币(10金币=人民币1元) 万字干货:ChatGPT的工作原理(2023).pdfhttps://m.book118.com/html/2023/0501/5211344112010201.shtm
9.ChatGPT的工作原理是什么?使用ChatGPT可以帮助我们更快地生成文本、提取信息、回答问题等,提高工作效率和质量。在使用ChatGPT工作时,您需要了解相关技术和知识,选择合适的方式,并不断学习和探索新的方法和技术。 以上就是【ChatGPT的工作原理是什么?】的全部解答,如果你想要学习更多【AI新职业技能】方面的知识,欢迎前往了解 >>AI直播公开课!https://www.gaodun.com/xinzhiye/1433291.html
10.ChatGPT原理详解+实操(1)SFT(GPT模型精调)ChatGPT原理详解+实操(1)---SFT(GPT模型精调) 前言 ChatGPT已近火了快大半年了,从去年刚出来的时候小编就关注了一下,也具体的使用过,然后就惊为天人,再然后就没有然后了,因为小编那段时间沉迷于AIGC了。ChatGPT今年开年后更是火的一塌糊涂,无论是行业内还是行业外的人,都在对这个东西进行炒作。那么,玩也https://blog.51cto.com/u_11908275/6941411
11.国内还没有搞明白chatGPT的架构原理。目前开源的只是GPT1.0和GPT2.0国内还没有搞明白chatGPT的架构原理。目前开源的只是GPT1.0和GPT2.0,而最新的GPT3.0和3.5根本没有开源。所以国内企业是拿不到GPT3.0的源代码的,根据美国对中国采取封锁的方针,中国没法使用GPT3.0和3.5源代码是必然的,也就是国内企业根本不懂GPT3.5的算法原理是什么。拿https://xueqiu.com/1354417741/241860639
12.ChatGPT的工作原理2023(万字干货)中文PDF版电子书下载☉ 如果遇到什么问题,请评论留言,我们定会解决问题,谢谢大家支持! ☉ 本站提供的一些商业软件是供学习研究之用,如用于商业用途,请购买正版。 ☉ 本站提供的ChatGPT的工作原理2023(万字干货) 中文PDF版资源来源互联网,版权归该下载资源的合法拥有者所有。https://www.jb51.net/books/885988.html
13.ChatGPT是什么?全面为你讲解ChatGPT!ChatGPT它能够快速地处理大量的文本数据,并且可以生成高质量的自然语言文本。ChatGPT的工作原理是利用深度学习技术来学习人类语言的模式,并将这些模式用于生成文本。通过训练ChatGPT,模型可以掌握丰富的语言知识和规则,并且可以生成与人类语言相似度较高的自然语言文本。 https://www.yutu.cn/news_51983.html