关键词:生成式人工智能;产品提供者;责任;正当性
目次
一、问题的提出
二、生成式人工智能的生成内容存在合法性风险
(一)数据源合规性风险
(二)算法风险
(三)数据泄露风险
三、由生成式人工智能产品提供者承担相应责任具有正当性
(一)生成式人工智能技术的内在逻辑
(二)由生成式人工智能产品的生产者承担责任的原因
四、产品提供者应成为生成式人工智能生成物的著作权主体
(一)人工智能生成物应当成为著作权的客体
(二)服务提供者应是人工智能生成物著作权的权利主体
(一)规范生成式人工智能产品提供者的法律责任类型
(二)强调生成式人工智能产品提供者责任的同时应明确其权利
(三)监管机构以“全链条监管”模式,保障生成式人工智能技术发展和安全
六、结语
ChatGPT作为一种大型语言模型,具有生成性和通用性双重特征,这与从大量数据中寻找隐藏模式并形成预测的传统分析式人工智能有本质区别,以ChatGPT模型为代表的生成式人工智能可以通过学习、训练人类创造的海量语料库中的基础数据来生成新的内容,这对规范类ChatGPT模型生成式、创造性人类活动的法律提出了新的挑战。生成式人工智能的整体运作模式相比人类传统工作模式,其最大的特殊性在于,由于人工智能生成之成果所依赖的基础数据和程序计算方式由其服务提供者确定,故而,生成式人工智能产品服务提供者在很大程度上可以决定人工智能生成成果的合法性。由此,对于生成式人工智能产品及其生成成果的规范重点均应当是其服务提供者。
鉴于此,2023年4月11日,国家互联网信息办公室印发《生成式人工智能服务管理办法(征求意见稿)》(以下简称:《办法》),面向全社会公开征求意见。《办法》的颁布旨在规范生成式人工智能技术的发展,划定责任主体,制定行业底线,特别是强调生成式人工智能产品的提供者责任,《办法》第五条规定:“生成式人工智能提供者需承担该产品生成内容生产者的责任;涉及个人信息的,承担个人信息处理者的法定责任,履行个人信息保护义务。”
本文将上述数据领域的风险和挑战归纳为三大类,即数据源合规性风险、算法风险以及数据泄露风险。
ChatGPT模型在技术路线上采用自然语言处理+搜索引擎集成的架构,建构了预训练语言和人类反馈的强化学习模型,连接大量语料库,通过生成式预训练方法处理大模型序列数据来得到一种通用的模型表达。简言之,该模型使用大规模的无监督语料库来预训练,使其拥有类似人类大脑的语言理解和具有一定独创性的文本生成的能力,能够完成用户指令的任务。
除此之外,ChatGPT模型在预学习阶段对数据库信息无过滤机制,可能使其在运行阶段就会因为算法“黑箱”的数据生成不良、虚假或违法信息。而在预训练后的深度学习将通过前期大量的训练数据对模型进行训练,最终确保在特定输入数据下通过“黑箱”运行,得到输出结果。从技术机理上看,深度学习等算法的安全性与数据具有强耦合性,不同数据所触发的神经网络节点并不相同,测试结果也不尽相同。针对“静态”情况下的深度学习算法进行的安全测试仅能发现较少漏洞,即使进行反复训练后的结果输出也会因算法设计者、实际控制者(生成式人工智能产品提供者)以及机器的初始数据而产生不安全性。
以ChatGPT模型为代表的生成式人工智能技术的出现,意味着当今社会已经步入了一个围绕由数据、算法、人工智能体所作出的社会和经济决策而构建起来的算法社会(AlgorithmicSociety)。事实上,在这个社会中,数据、算法、人工智能体不仅作出决策,而且在某些情况下执行这些决策。在由算法做出自动决策的场景中,实际上包含了两项程序,一是算法的自主性学习,二是算法的设计系统。算法的自主性体现在解答人类给出的特定任务,而算法的设计系统的表示行为背后是算法提供者的意思表示。因此,算法本身就具有生成式人工智能产品意思形成的工具属性。基于这一属性,算法风险主要体现在两方面,一是算法异化,二是算法歧视。
算法歧视和异化将造成生成式人工智能产品使用者陷入“偏信则暗”的信息窄巷。算法的设计,数据的输入,结果的输出三个过程中均是背后的提供者意志领域范围内的事项,基于提供者的意志设计算法,就会出现算法的歧视和异化。
二是人工智能的异化。算法本身具有自我学习功能,算法完成后是以独立的、自我运行的方式存在,那么在自我学习功能设计前的系统设计就显得尤为关键,若算法本身在设计之初就出现异化,那么算法在脱离人的掌控下进行自我学习的过程就将成为算法服务提供者实现不可告人目的的“私器”。除此之外,也存在恶意“训练”人工智能,故意异化人工智能,使其提供诈骗信息、钓鱼网站等内容的情形。
二是商业秘密泄露导致的不正当竞争和侵权问题。中国支付清算协会不久前发布的《关于支付行业从业人员谨慎使用ChatGPT等工具的倡议》(以下简称:《倡议》)指出,ChatGPT类智能化工具已暴露出跨境数据泄露等风险。笔者认为,中国支付清算协会发布该《倡议》正是基于生成式人工智能技术本身所带来的数据安全风险进行的风险防控措施,由于ChatGPT模型等生成式人工智能技术的训练数据中包含了公司内部的一些商业机密信息,例如客户隐私、海量数据、机构秘密等众多数据细节等等。若使用者利用该技术输入了关于涉及公司隐私的商业数据,人工智能未经使用者同意的数据抓取和训练模型强大的推理能力将加大公司商业数据意外泄露到竞争对手手中的风险。其中,韩国三星公司泄漏芯片机密就是典型例子。
三是国家秘密泄露导致的危害国家安全问题。目前,各国对国家机密文件和信息监管较严,但若片段性或零碎的信息被ChatGPT模型收集,将会与其他数据结合在一起进行挖掘分析,从而推断出可能危害国家安全、公共安全、个人和组织合法权益的情报信息。随着ChatGPT在世界范围内的普及和广泛使用,产生这一类风险的概率也将大大提高。
如前文所述,《办法》第五条规定了由生成式人工智能产品提供者来承担该产品生成内容生产者的责任,笔者认为,从客观上来看,生成式人工智能产品提供者和生成内容的生产者并非同一主体,因此《办法》这一规定的正当性需要予以进一步证成。
ChatGPT模型的文本生成是基于预训练的神经语言模型GPT构建的,利用GPT的能力对自然语言进行建模来生成自然文本,这一套系统的模型构造,呈现出“深度学习”的能力,通过神经语言模型样本自主产出内容,并进行整合和汇编,最终生成具有“人类语言”特点的文本。具体而言,以ChatGPT模型为代表的生成式人工智能技术对数据的解读训练、整合、输出与人类学习和内容表达存在相似之处,属于“人工智能生成内容”(AIGC,AIGeneratedContent),其生成的文本的技术逻辑是基于大量文本数据下神经语言模型的统计、应用和构建形成的,这与传统人工智能下的语言数据模型脱离语料库则无法运行不同,ChatGPT模型的文本生成已具备了模拟人脑神经网络模型的算法模型构造。
在这种技术逻辑下,生成式人工智能技术产品本质上是生成式人工智能技术,或者说是该技术下的算法模型,如果按照技术逻辑去划定承担生成式人工智能产品的责任主体,那么生成式人工智能技术,或者说ChatGPT模型本身应当成为履行义务和承担责任的主体。显然,这一逻辑能够得以成立的前提,是以ChatGPT模型为代表的生成式人工智能是否具有法律上的主体资格。虽然国内外有学者主张可以根据物种位阶的规范主义立场,为人工智能构建一种以责任承担为基础的特殊财产性法律主体,但这类构想是对现有法理以及法律体系颠覆性的变革,在现有的法律体系下短期内较难实现。
《办法》中规定生成式人工智能产品提供者(提供者既包括个人,也包括组织)承担该产品生成内容生产者的责任,是将生成式人工智能产品提供者视为生成内容的生产者。尽管从技术逻辑来看,以ChatGPT为代表的生成式人工智能才是其所生成成果内容的直接生产者,应当作为内容生产者履行义务和承担责任,但考虑到生成式人工智能产品提供者对生成内容的基础素材和生成过程客观上具有较强的控制力和决定力,因此笔者认为,《办法》确定由其承担生成内容生产者的责任具有正当性。此外,这样的规则安排也能解决目前法律体系下无法赋予生成式人工智能独立法律主体地位的问题。
《办法》第五条将生成式人工智能服务“提供者”划定为利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人,包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等的组织和个人。据此,提供者应受制于《办法》中关于服务提供者的监管要求,承担产品生成内容生产者的责任和个人信息保护义务。
2.服务提供者是生成式人工智能算法设计的主体
生成式人工智能主要基于深度神经网络,通过预训练、优化训练大规模的数据集,学习抽象出数据的本质规律和概率分布,并利用生成模型生成新的数据,形成最终产品。在生成式人工智能技术中可以认为,数据是产品生成的基础,而算法是加工和处理这一基础资源的技术手段,决定了生成物的价值取向和合法合规性。
由于算法所形成的“模型设计+数学规则”的高度技术性和复杂性,导致非算法专业人士尤其是普通公众,无法掌握或理解算法的运行和决策原理。而算法“黑箱”的技术壁垒又导致了非算法专业人士无法探究算法推荐服务提供者是否存在过错,这足以阻碍对算法推荐服务提供者按过错责任归责。据此,强化算法推荐服务提供者的注意义务就显得尤为重要。
生成式人工智能技术中,数据是基础,算法是加工和处理这一基础资源的核心,决定了生成物的价值取向和合法合规性。算法技术本身是中立性的,但这是基于技术本身,一旦算法走向具体应用,由于算法推荐服务提供者(人和组织)是具有价值倾向的,加之服务提供者和生产者之间存在不同利益与价值取向,这均使其难以保持中立。笔者认为,生成式人工智能算法使用的适当性在一定程度上决定了数据转化生成物是否合法合规,而产品提供者是决定算法的关键。
《办法》中规定,提供者承担该产品生成内容生产者的责任,规定了其在数据训练合法性以及算法使用适当性的义务和责任,这一规定表面看似乎扩大了提供者的责任范围,但不能否认其具有正当性和合理性,理由如下。
二是,基于“谁生成谁负责”的原则,提供者对整个生成内容的过程负责。根据《民法典》之侵权责任编“关于责任主体的特殊规定”,笔者认为,提供者对整个生成内容的过程负责是基于“谁生成谁负责”的原则,提供者作为为信息交流和交易活动的双方当事人提供服务的第三方主体,具有训练数据提供者、算法设计提供者、产品生成服务提供者等多重身份,其在训练具体数据信息是否合法、算法使用是否适当等整个生成内容的过程中作为第三方主体,应当负全过程责任。除此之外,在使用者利用生成式服务实施侵权行为的情况下,服务提供者如果没有履行相应的注意义务,也将可能承担相应的连带责任。
人工智能生成的内容是否具有著作权,是一个有争议的问题。国内外学者对人工智能生成的内容是否享有著作权持截然不同的观点。
国内持否定说的学者认为,以往的人工智能大多承接体力劳动或提供信息索引和单句对话服务,算法模型产出的文本内容不具有自己本身的思想、个性以及创新,因此不具备著作权的基本要件;也有实务工作者认为,ChatGPT模型生成的文本等内容是基于大量数据的统计和应用生成的,不具有自己的思想和创新,很难构成著作权法保护的作品。国外同样也不乏持否定说的学者,例如,法国多数学者认为具有独创性的作品应当体现作者个性、思想情感,人工智能作品没有人类个性、思想情感,因此无法认定为受著作权保护的作品;同样,俄罗斯在区分知识产权和著作权的关系时,在著作权的独创性上强调“最低限度的创造性”,对著作权的独创性的理解和界定更倾向于将创造性引入独创性的判断标准中,但仍基于“人类中心主义”,即强调人的参与性,认为人工智能作品很难构成著作权法保护的作品。
诚然,否定说论者敏锐地注意到了当前类ChatGPT生成式人工智能技术发展过程中所存在的法律主体问题,也就是人工智能技术本身决定其非法律主体,但其也忽略了生成式人工智能技术生成的一些符合著作权原则上的“类作品”的法律属性。肯定说论者基于新型创作物的考量,认为对于符合作品属性的人工智能新型创作物应视为受著作权保护的作品类型,这类基于人工智能技术创造的新型作品既无限接近或已经符合著作权法所规定作品的法定要件,同时也符合物权法中关于财产的构成要件的基本要素。事实上,在数字时代,类ChatGPT生成式人工智能技术的快速发展根本性地改变了传统工作模式,也系统性地重塑了“作品”生产与属性认定的关系。本文持肯定说,但理由略有不同。笔者认为,基于生成式人工智能技术的工作原理以及输出产品的基本属性,人工智能生成物(产品)在一定程度上属于智力成果,并具有一定的独创性,符合构成著作权法意义上作品的基本属性。
第一,人工智能生成物(产品)在一定程度上具有独创性。以ChatGPT模型为代表的生成式人工智能技术原理与传统人工智能下的语言数据模型不同,生成式人工智能技术通过生成式预训练语言模型叠加神经网络等多种模型来实现产品输出,这些模型在训练过程中会利用大规模语料库中的文本信息,包括维基百科、新闻、社交媒体等不同领域和主题的文本数据,通过预测下一个单词或多个单词来学习文本的结构和语言规则,形成预训练语言模型下的文本的正负样本。通过预处理技术构建正负样本,使用n-gram算法,过滤掉数据中出现频率比较低的单元素集合(singletons),将大量文本语句整合为最终文本内容,这些文本内容既包括基于无限制数据集生成模型,也包括受限文本生成模型。
虽然模拟人脑神经网络模型的算法模型产出的内容不具有作为人类作品的思想、个性以及创新性,但人类进行的预设算法、规则、模板步骤对人工智能生成物的产生起到了至关重要的作用。一方面,在GPT模型下生成的文本内容是基于不断的训练、学习展开的,所产出的文本是基于训练后的内容进行独立汇编所形成的。根据我国《著作权法》第15条汇编作品的法定标准,生成式人工智能对庞大信息库检索并生成符合逻辑要求的内容,实际上近似独立的汇编行为,具有最低标准的独创性;另一方面,基于设定好的生成式技术对已有作品的片段选择和整体编排具有一定独特性和创造性,并从形式和表达上与原作品存在差异,特别是在使用者有意识地参与并构思和充分提示下,以ChatGPT模型为代表的生成式人工智能输出的文本则更具独创性,在实践意义上已经符合或者无限接近著作权独创性的法律属性。
第二,人工智能生成物(产品)在一定程度上属于智力成果。当前,关于智力成果的界定存在不同声音,国内学者有人主张“智力成果是人特有的独创性劳动的产物”,认为作品的智力成果构成要件要求作品的创作过程是智力活动,只能由自然人实施,而人工智能生成物并非自然人通过智力活动形成的智力成果,从而质疑人工智能生成物的作品属性。也有学者根据我国《著作权法》智力成果的构成要件主张“将‘智力成果’解释为‘与自然人脑力创作相当的新颖性、创造性的新内容’”。
反观我国《著作权法》中将作者创作完成作品作为智力成果的构成要件,可以看出,并未规定作品的作者必须是自然人,法人和其他组织也被拟制为作者,这就意味着“智力成果”构成要件的创作主体并非只能是有脑神经元的自然人,也可以是具有构成智力成果能力的组织或法人,这就为“人工智能生成物(产品)”也可以被认定为智力成果留出了空间。笔者认为,将“人工智能生成物(产品)”认定为《著作权法》意义上的智力成果还需要考虑以下因素:一是选择空间性,即不是唯一选择或者有限选择;二是独特性,即选择之后与既有表达内容不重复;三是生成内容的可理解性,即智力成果所表达的内容是能被人类所理解的。据此,生成式人工智能产品的产出既有着“有形”形式,生成内容同样具有不重复性、可理解性,若抛开现有思维对著作权上的智力成果的传统界定,以ChatGPT模型为代表的生成式人工智能产品在一定程度上满足了《著作权法》上关于智力成果认定的基本标准。
关于人工智能生成物著作权主体归属的争议同样有三种观点,第一种是“人类中心主义”论,第二种是人工智能“法律主体地位”论,第三种是“法律解释”论。
持“人类中心主义”论的学者认为,人工智能是经由人类创造出来的智慧产物,属于被人类支配的客体范畴,在坚持以人类为中心构建的法律制度体系中,任何非人类或非人类集合都不能成为民事主体,人工智能也不能因为其生成物可以具有作品属性而当然地取得著作权法意义上的作者资格;持人工智能“法律主体地位”论的学者多数认为,法律主体的范围是开放的,是由社会发展的需要而决定的,人工智能技术的快速发展需要为人工智能构建一种以责任承担为基础的特殊财产性法律主体;而持“法律解释”论的学者认为,在现行《著作权法》框架下,可以通过法律解释的方式作出适当的安排,至于是将著作权归属于人工智能的提供者、生产者还是使用者,意见尚未统一。诚然,这三类观点均肯定了人工智能生成物著作权的法律属性,但对于人工智能生成物著作权主体资格问题有较大争议。事实上,这一争议产生的根本性原因在于能否在著作权法上创设一种新的独立法律主体以突破现有法律体系对主体范围的限制。
笔者认为,就目前人工智能发展的现状而言,无需对现有著作权法进行重大修改,只需要确定著作权归属于人工智能的提供者、生产者还是使用者,并对内涵和外延进行法律解释即可。
首先,人工智能非自然人,本身无法成为法律主体,更不能成为权利主体。《办法》规定,生成式人工智能产品提供者(提供者既包括个人,也包括组织)承担该产品生成内容生产者的责任,正是基于“人类中心主义”论,认为人工智能非自然人,本身无法成为法律主体,更不能成为权利主体,但人工智能输出作品的行为需要进一步明确和解释。
其次,人工智能输出作品的行为构成了其主体(生成式人工智能产品的提供者)的法律行为要件。我国《著作权法》并未规定作者必须是自然人,而是将法人和其他组织拟制为作者。鉴于此,笔者认为,人工智能虽然不能成为法律主体,但其输出作品的行为是受算法支配而表现在外面的活动,这种行为构成了其主体(生成式人工智能产品的提供者)的法律行为要件。换句话说,人工智能本身没有行为能力,是由人工智能的提供者赋予它的算法和数据来决定的,其后续的行为认知是基于人工智能的设计者、制造者对自己行为的法律意义和结果的认识,基于此,人工智能服务提供者就应享有著作权主体资格。
《办法》中虽然提到了“服务提供者”的概念,但是并未对其进行定义,在法律责任中也只进行了原则性要求,未对具体行为的法律责任进行细化和规范。笔者认为,《办法》应明晰规制对象边界,厘清与《中华人民共和国网络安全法》(以下简称:《网络安全法》)《中华人民共和国数据安全法》(以下简称:《数据安全法》)《中华人民共和国个人信息保护法》(以下简称:《个人信息保护法》)等法律、行政法规的关系和承担责任的边界,以实现在权利和责任规则适用上有序衔接和有机联动。
二是,应以民事责任、行政责任为主,刑事责任为辅,以避免刑法越位,规制泛化,扼杀技术创新。目前我国刑法规定了网络服务提供者拒不履行信息网络安全管理义务罪,该罪处罚的是网络服务提供者不履行信息网络安全管理义务,防止其他主体妨害信息网络安全管理秩序且情节严重的行为,而ChatGPT模型提供的信息服务是网络服务提供者自营服务的组成部分,ChatGPT模型只是经营工具而非法律主体,防止ChatGPT模型提供违法有害信息不属于履行信息网络安全管理义务的行为。如果认为有必要动用刑法手段防止ChatGPT模型引起广泛的、十分严重的危害,有必要对其提供者规定服务安全管理责任,并予以充分、合理的刑法规制,但需要注意的是,刑法应始终保持内在谦抑,避免其规制的泛化,扼杀技术创新。在其他部门法足以规制人工智能风险时,应避免刑法的越位。
另一方面,明确生成式人工智能产品提供者的产品的经营权。在具体内容上应遵循《意见》中“谁投入、谁贡献、谁受益”的数据经营原则。具体来说,生成式人工智能产品提供者产品的经营权主要是指服务提供者拥有对其研发的数据产品进行开发、使用、交易和支配的权利,其核心是处分权和收益权,也就是提供者作为产品的所有者,对合法处理数据形成的数据产品和服务依法享有自主使用,取得收益、进行处分的权利。数据产品的经营权的客体并非原始数据或者数据集合,而是经匿名化处理、加工、分析而形成的数据或数据衍生产品,后者已经实现与前置性权益的切割,成为独立的权利客体,一旦使用者利用生成式人工智能的人类反馈的强化学习模型对其进行有意训练,不断输入假数据、个人隐私信息等非法数据,引导生成式人工智能按照使用者的意思进行输出内容,若明确了生成式人工智能产品提供者的产品经营权,服务提供者就可以禁止使用者输入不当内容。因此,笔者认为,生成式人工智能产品提供者应当可以对产品的处分和收益主张权利。
监管机构应加强事前、事中、事后全链条监管,保障生成式人工智能技术的发展和安全。
第三事后追责,细化并规范责任承担机制。明确生成式人工智能产品提供者和使用者在其对人工智能支配力所及范围内各自承担责任,按照“谁支配、谁负责”原则,明确责任承担机制,即“风险属于谁的管辖范围,谁便需要对风险及由此产生的结果来负责”。
以ChatGPT为代表的生成式人工智能技术具有极强的虚拟性、互动性、广域性和即时性,在增加监管难度的同时,所带来的法律风险和社会挑战也不断增加。为应对这一挑战和风险,我国颁布了《办法》,对人工智能追责体系进行补充和完善,整体上及时解决了技术快速发展与立法滞后之间的矛盾和问题,但《办法》仍有较大的提升空间。考虑到信息(数据)集合的巨大财产价值,以及技术在实践中导致各类风险的现状,在规制生成式人工智能产品提供者的义务和责任时,更应明确生成式人工智能产品提供者主体的相应权利,实现对生成式人工智能产品提供者法律规范的整体妥当性。
作者:孙祁(上海社会科学院法学研究所助理研究员、清华大学社会科学院在职博士后研究人员)