大型语言模型的爆发,宣示生成式人工智能为历史翻开断代的一页,文明和社会的底层逻辑正在悄然切换。OpenAI推出的ChatGPT代表当下生成式大语言模型的顶点,StabilityAI推出的StableDiffusion和Midjourney就代表生成式图像模型的高峰。
不论模型设计的技术水平有多高,现阶段技术条件下数据训练质量对AI性能都具有决定性影响。ChatGPT模式是典型的大力出奇迹,3.5版本以来通过千亿级别的数据暴力训练,终于涌现出通过图灵测试的智能;StableDiffusion和Midjourney代表的图像模型同样需要大量素材喂养。
(一)《著作权法》
第15条:汇编若干作品、作品的片段或者不构成作品的数据或者其他材料,对其内容的选择或者编排体现独创性的作品,为汇编作品,其著作权由汇编人享有,但行使著作权时,不得侵犯原作品的著作权。
第16条:使用改编、翻译、注释、整理、汇编已有作品而产生的作品进行出版、演出和制作录音录像制品,应当取得该作品的著作权人和原作品的著作权人许可,并支付报酬。
(二)《生成式人工智能服务管理暂行办法》
由网信办等部委联合发布的暂行办法第4条规定:“提供和使用生成式人工智能服务,应当……遵守以下规定:……(三)尊重知识产权”。
(一)行为分解的意义
1.解构是为了更好的整体分析
数据输入、训练过程和结果输出,是完整的人工智能数据训练中前后衔接的三个阶段。准确分拆每个阶段是正确认识和评价每个阶段的前提,而正确评价每个阶段才能全面判断作为行为整体的数据训练。
人工智能数据训练的技术过程的法律后果,实际分别由数据输入和结果输出端吸收,即只需要对数据输入和结果输出两个阶段做法律评价。但是了解数据训练过程的技术实现方式,是对训练结果输出进行法律评价和正确适用法律分析的前提。
举一个例子,两位学生解同一道题做出相同答案。判断其中是否存在抄袭,不能只看做题结果而要追溯做题过程是否存在作弊。
2.数据输入和结果输出相互独立
数据输入是模型训练的起点和过程,结果输出是对训练成果的使用。数据输入和结果输出不但在数据训练全过程中相互独立,甚至未必一一对应,可能在逻辑上脱链。比如为实现测试、校验、研究等目的,就可能只输入而不需要输出。
3.分别适用法律规则
中国对著作权合理使用的基本规定分别在《著作权法》和《著作权法实施条例》。
《著作权法》第24条规定:“在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益:(一)为个人学习、研究或者欣赏,使用他人已经发表的作品;……(六)为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行。前款规定适用于对与著作权有关的权利的限制”。
《著作权法实施条例》第21条规定:“依照著作权法有关规定,使用可以不经著作权人许可的已经发表的作品的,不得影响该作品的正常使用,也不得不合理地损害著作权人的合法利益”。
依次分析前述著作权法第24条中第1和6两款列举规定。关于第六款,人工智能数据训练性质和“科学研究”倒是接近,但该款“少量复制”的规定和大规模数据训练的需要相冲突。因此适用第六款论证AI训练的数据输入可以适用合理使用,困难相当大。
第24条第1款规定的合理使用场景是“为个人学习、研究或者欣赏,使用他人已经发表的作品”。有专家认为该款对“个人”主体的限定使AI训练难以适用,但即使从《著作权法》分析“个人”主体的限定也并不能排除AI训练的适用。
1.著作权法没有规定“个人”必须是自然人
一部法律总则对全部法条都有统摄作用。《著作权法》总则中第2条列举本法适用的法律主体包括:“中国公民、法人或者非法人组织”,其中并没有使用“个人”。中国公民是(中国籍)自然人概念的法律化,具有一致的指向。但著作权法总则没有把个人作为和组织并列的主体,即个人和公民(以及自然人)在著作权法上并不是必然等价的概念。
2.著作权法使用的“个人”有充分的解释空间
除前引第24条(一)款“为个人学习、研究或者欣赏”的规定外,《著作权法》使用“个人”表述的还有第49条和第52条两处。
其中第49条第2款是对禁止破坏技术措施的规定:“未经权利人许可,任何组织或者个人不得故意避开或者破坏技术措施......”;第52条第1款是对禁止侵害署名权的规定:“有下列侵权行为的,应当根据情况,承担......等民事责任:......(三)没有参加创作,为谋取个人名利,在他人作品上署名的”。
根据上述第49条,个人和组织是并列的法律主体,单独从这一条看似乎支持个人和公民/自然人等同的理解。但是著作权法第52条又显然不支持个人和公民等同。
著作权法第12条对署名权主体的规定是:“在作品上署名的自然人、法人或者非法人组织”,所以署名权可以为所有主体平等行使。理论上侵害署名权和享有署名权的主体应该做一体解释,实践中以各类组织名义(包括院系、编写组、研究团队)署名现象普遍存在。那么不论主张组织不具有侵害署名权的能力,还是主张组织侵害署名权不受第52条限制,都是和现实和理论冲突。唯一可行的解释是第52条禁止侵害署名权规定中的个人,包括组织。
3.类似情况适用参照规则
在著作权法总则没有限定甚至没有使用“个人”,且使用“个人”的不同条款含义不一致情况下,不能得出著作权法中的个人和公民/自然人等同的结论。因此著作权法第24条使用的“个人”不仅具有弹性解释的可能,而且可以适用对类似规范的参照。
事实上这里的参照可以是双向的。不但是第24条的“个人”可以参照“组织”的规定,第52条的“组织”也可以参照对“个人”的规定。
4.实践需要扩大解释或参照适用
将学习、研究或者欣赏的合理使用范围扩大到自然人以外的主体,远不单是伦理问题而是现实已经发生的切实需要。试举一例,利用中国知网的CNKI论文进行查重,适用现行法律所遇到的法律争议之一就是主张以研究为目的的合理使用的主体适格性[i]。
扩大解释著作权法第24条中的“个人”或者参照“组织”的范围适用,理论上没有障碍,实践中确有必需。
(三)合理使用立法模式对AI数据训练的影响
著作权合理使用立法有限定严格的列举模式,以及只规定判断原则的开放模式。显然开放模式的弹性和宽松度要大得多。中国著作权合理使用立法是以著作权法第24条的具体列举,加实施条例第21条的三步检验并行的模式。适用该种模式仍然以行为落入著作权法24条具体列举范围为条件,理论上不会比单纯列举模式的严格程度低。
由于列举模式的刚性,在人工智能发展初期阶段很难有提前立法覆盖AI数据训练全程,最多可以用来判断单个阶段的合理使用。唯有开放式合理使用可能直接适用从数据输入到结果输出的全过程。
韩国著作权法分别在第35条第2款规定了临时复制许可,在第3款规定了合理使用制度。该法第35条2条款规定:“使用者在计算机上使用作品时,使用者可以为稳定有效处理信息目的,在计算机上临时复制该作品。但是,本规定不适用于以侵权方式使用作品”[ii]。该款显然认可计算机临时复制属于侵权例外,而根据该款但书规定的排除条件,完整地判断人工智能训练的数据输入是否合法需要结合其它规定,即第3款的合理使用。
日本著作权法和韩国著作权法类似,在2018年修订版著作权法第47条之4款第1项规定了包括计算机缓存等临时复制的合理使用[iii],可以作为人工智能数据训练输入阶段的判断依据之一。同样,完整判断数据训练行为在日本是否可以适用合理使用,需要结合第30条4款以及第47条5款。
(1)使用目的和性质,包括是否为商业目的或盈利的教育目的;
(2)被使用作品的性质;
(3)被使用内容相对于被使用作品整体的数量和重要性;
(4)被使用作品因此受到潜在的市场影响;[iv]
2.关于数据训练与合理使用的专家意见
萨格教授的证词观点鲜明、论证清晰而且做到一气呵成,以下完整引用主文中对合理使用的部分(专家证词附录部分还有展开论述,建议检索原文阅读):
萨格证词摘要:
生成式人工智能并不是为了复制原创而设计。[vi]
(二)欧盟立法
1.欧盟立法结构
2.DSM指令与TDM规则
DSM指令中与人工智能数据训练对应的行为,称为文本与数据挖掘(TextDataMining,简称“TDM”)。
指令第4条规定的合理使用相比第3条而言为科学研究以外的数据挖掘敞开通道,但同时为权利人预设禁止他人获取的保留权。参见指令前序部分第18条,可了解指令第4条扩大合理使用范围的立法理由:
“(18)文本和数据挖掘技术除了在科学研究中的重要性之外,还被私有和公共主体为各种目的和分析不同生活领域而广泛使用,包括政府服务、复杂商业决策以及新应用或技术的开发。……在此类情况下为提供更多法律的确定性并鼓励私有经济体的创新,本指令应在相应情况下设置为文本和数据挖掘目的对作品或其他主题的复制和摘录的例外或限制(注:即合理使用)。
本例外或限制仅适用于受益人合法获取作品或其他主题的情况,包括在网上向公众提供,以及权利人未以适当方式保留复制及文本和数据挖掘权的情况。对于已通过互联网公开提供的内容,只有通过机器可读方式(包括元数据以及网站或服务的条款和条件)才构成有效保留。”[viii]
(三)英国立法
(四)日本立法
日本在2018年基于“考虑物联网、大数据、人工智能等技术革新所生成的「第四次产业革命」修订著作权法”[xi]。该版修订著作权法第47条之5款的规定,已为人工智能数据训练设立了合理使用许可:“通过计算机处理创造新知识或信息之以下行为者,……以任何方式(参考利用比例、数量及对外提供的较低分辨率等)利用他人已公开作品。但有不当损害著作人利益之情形,不在此限。”
日本政府推动人工智能数据训练的积极态度已经超过英国和欧盟,后者的合理使用排除非法获取,而日本甚至将从非法网站获取予以划出从而缩小非法获取的范围。难怪顶尖人工智能专家YannLeCun在推特评价日本已经成为机器学习的天堂。
(五)韩国立法
结合韩国著作权法第35条第2款规定的临时复制许可,韩国对数据训练整体适用合理使用的概率很大。
(六)以色列立法
(一)中国态度与国际条约义务
如本文第二部分所述,单独看网信办等新近颁布的《生成式人工智能服务管理暂行办法》第4条和第7条,已经封闭了AI数据训练从输入到结果输出适用合理使用的可能。但是即使暂行办法排除合理使用,依旧存在两种重新适用的可能。
第一种可能是通过立法或者对《著作权法》进行解释,前文且已论证在法律执行中进行解释至少有能力解决利用人工智能数据训练进行科学研究中的合理使用问题;第二种可能是寻找合理使用制度以外支持利用受著作权保护作品进行数据训练的依据,最有可能完成这项任务的是著作权保护例外的规定。
中国参加的国际条约,即使在本国法中没有明确写明也对中国具有约束力。中国参加的《与贸易有关的知识产权协定》(WTO知识产权协定)第9条“与《伯尔尼公约》的关系”约定以下两款:
1.各成员应遵守《伯尔尼公约》(1971)第1条至第21条及其附录的规定。但是,对于该公约第6条之二授予或派生的权利,各成员在本协定项下不享有权利或义务。
此外我国《计算机软件保护条例》第6条也规定条例对软件著作权的保护不延及开发软件所用的思想、处理过程、操作方法或者数学概念等。
依本文观点及第六部分“技术”等论证,至少对生成式人工智能而言,不论其数据训练对象是文字还是图像内容,其生成结果都只是对训练数据中思想、观念、技法、风格(萨格教授习惯称为思想和事实/Facts,或非表达因素)而不是对作品表达的利用。换而言之,生成式人工智能利用的是训练素材中可以生成表达的部分,比如思想和风格。
(二)其他海外立法
1.排除对非表达部分的保护
日本著作权法第30条第4款规定著作权不保护对作品表达的思想或感情之外目的之使用,并特地提及用于数据分析(对大量作品或大量作品中语言、声音、图像或其他基本数据进行提取、比较、分类或其他统计分析)的情况适用第47条第5款(参见本文第四部分之(四)的解释)。
2.间接允许使用
欧盟议会于2023年6月发布关于人工智能立法立场[xvi]中,要求人工智能模型和生成内容的提供者,必须发布有关使用受著作权法保护的训练数据的信息(publishinformationontheuseoftrainingdataprotectedundercopyrightlaw)。欧盟立场只要求人工智能和生产内容提供者明示训练所使用受著作权保护数据的信息,并没有要求其获得许可更没有给著作权人拒绝进行许可的权利。结合对欧盟在DSM等法规中的立场,可以得出欧盟支持使用受著作权保护作品进行AI数据训练的行为设定合理使用。
对当下引发争议最大的生成式人工智能技术原理做基本复盘,对厘清人工智能输出结果的生成原理,进而判断AI数据训练过程是否存在侵权,具有重要意义。
法律学者研究人工智能技术的确有很多专业障碍,虽然也有一些阐释清晰的技术贴[xvii]和书籍(比如吴军的《智能时代》),但技术圈外无法从算法层面完全掌握。好在要做数据训练的合法性判断只需要理解生成式的基本原理和方法论。一并推荐阅读萨格教授今年7月为美国律师协会知识产权法分部讲座的PPT《生成人工智能抓取/挖掘的公开信息》[xviii],有助于从简单的阐释中理解生成式人工智能数据训练的基本状况。
并不推荐法学者都亲自研究人工智能技术这样庞大的技术体系。用最简单的逻辑表述,生成式人工智能就是通过对大量数据材料的学习,提炼各种问题解决方案或者不同类型作品的数据特征,并基于以上机器学习习得的知识根据指令生成需要的结果,不论是解决问题、输出图像或者文字。
语言大模型(LLM)原理比图形大模型原理解释起来更简单。ChatGPT的基本原理就是通过海量数据的预训练学习语言规律和无差别领域的背景知识。经过天文量级的数据训练,例如当下风行的ChatGPT4已训练过1.5万亿单词和1750亿参数,AI学会根据问题逐个预测出最接近需要的每个单词。
图像大模型技术之所以复杂,是因为在图像识别这样基础和初始的需求上,计算机就遇到了严重挑战。很多年来人工智能连猫的图像也难以准确识别。2020年一个苏格兰足球俱乐部引入配置AI追踪技术的智能直播系统,控制镜头紧跟场上足球的移动进行直播。遗憾的是AI把裁判的光头当成足球,裁判成了全场转播唯一的高光和赢家。
AI和人类理解图形特征的方式不一样。人类识别和比对图形一致性是通过像素,数字技术方案则是用散列函数(HashFunction)把任意大小(或长度)的文件压缩成128位的信息摘要(哈希值),再通过不同文件的哈希值匹配是否一致。AI通过训练提炼出AI才能理解的图形特征。AI并没有记住图形,记住的是数学式。
GAN对抗模型是一种非常流行的图像生成模型。使用GAN模型的AI生成一个编码器和一个解码器,把同一张图同时喂给编码器和解码器,由编码器对原图不断加数字噪音,解码器则不断降噪试图辨别是否原图。通过编码器和解码器反复轮回的体内博弈,AI自己学会提炼出适合于程序识别格式的文件特征。StabilityAI出品的全球最大图像生成模型StableDiffusion训练方法则是根据每张图片自有的分布规律,学习图形和文字标签之间的关系,在去噪过程当中实现图像生成。
很多观点认为人工智能是拼接已有作品,但这并不符合生成式人工智能的学习过程。拼接的前提是大量局部复制(少量情况下完整复制),但AI不是为复制而学习,是为了掌握训练数据在技术分析意义上的特征而学习,复制对生成式人工智能在技术上的意义是程序出错。就StableDiffusion模型是否会在生成过程中复制训练数据请教过一位不愿意具名的人工智能图像处理专家,这位专家认为模型学到的都是数学表达,并不会真的把一个图片的某个部分复制到结果里面。
生成式AI的技术机制不需要也不支持抄袭。
AI哪有坏心眼,AI就没心眼。
六、案例分析与借鉴
(一)中国案例分析
1.使用他人作品元素的商业实践
2.使用他人作品元素的侵权案例
(1)《此间的少年》案
金庸在2015年以小说《此间的少年》中使用原告《射雕英雄传》《天龙八部》《笑傲江湖》《神雕侠侣》等作品角色,侵害原告著作权为由,将涉案小说作者杨治(笔名江南)等诉至法院。广州知识产权法院于2023年4月以(2018)粤73民终3169号判决书,认定《此间的少年》和原告作品在故事情节表达、时空背景、故事线索与事件、具体故事场景和内在逻辑等皆不同,但涉案小说多数人物名称、主要人物性格、人物关系与原告作品小说有诸多相似之处,存在抄袭剽窃行为,侵害了涉案作品著作权。
(2)《锦绣未央》案
北京市朝阳区人民法院在(2017)京0105民初62752号等系列判决书中认定,周静在其创作的小说《锦绣未央》中抄袭温瑞安等12名作者的《温柔一刀》《身历六帝宠不衰》等16部小说的语句和情节,侵犯了署名权、复制权和发行权。
西安佳韵社和上海箫明公司之间这场为《我的团长我的团》著作权侵权纠纷开启连续三个审级的诉讼,是解释和适用著作权合理使用制度最经典的案例之一。
西安佳韵社在2020年将上海箫明公司诉至北京市互联网法院,称被告未经许可提供电视剧《我的团长我的团》的在线播放,侵犯了原告对涉案作品享有的独家信息网络传播权。被告上海箫明公司通过自己经营的“飞幕”APP提供“听音识剧”功能,将涉案作品以1分钟为单位剪辑后上传到服务器,APP后台通过语音识别用户播放声音,在和服务器中作品片段匹配后即向用户播放该不超过1分钟的片段。
上海箫明公司抗辩其提供的“听声识剧”服务是向不熟悉影视作品的用户介绍影视作品,在功能和目的上都不是提供在线播放业务。被告为用户提供的涉案作品片段不超过1分钟,占43集作品的比例微乎其微,无法表达出完整的故事情节也不会对涉案作品起到替代作用。
北京市互联网法院一审审理认为,虽然被告在识别并匹配后仅向用户提供每次1分钟的片段,但其行为已构成信息网络传播,侵害了原告权利。
北京市高级人民法院于2022年底在(2022)京民再62号再审判决书中又撤销二审判决,改认定上海箫明公司行为不构成合理使用,只是将向西安佳韵社公司赔偿的经济损失从一审的6万降至1万元。
4.观点总结
综合以上商业实践及案例,可以得出以下几个结论:
(1)碎片化使用他人作品元素,并不必然可以援引合理使用;
(2)大量使用他人作品元素,尤其使用知名角色名称或经典台词、情节等细节,可能构成侵权;
(3)人工智能数据训练能否适用合理使用,关键看AI学习和利用的是他人作品风格、思想、观念、技法,还是直接使用作品元素。
(二)美国案例分析1——安德森等诉StabilityAI等
安德森等诉StabilityAI等人工智能公司侵权的重要性远不止数字上“第一案”的形式意义,而是三位原告以艺术家代表身份为艺术家群体向人工智能企业发起诉讼。这起诉讼体现了艺术社群面对人工智能骤然挑战的焦虑,代表了众多绘画师的不安。本案结果必将对艺术家群体和人工智能产业同时产生重大影响。
原告证据看来没有弥补诉状过于依赖纯理论分析的缺陷。根据最新报道,法官WilliamOrrick在庭审前的听证会已经表示倾向于驳回本案原告的大部分诉请。法庭认为原告应该清楚的区分对不同原告的索赔,尤其应该就其生成式人工智能侵权的主张提供事实证据,否则即使被告的系统已经对50亿张压缩图像进行训练也不能证明这些训练素材包括原告作品。[xxi]
本案进程显然遇到障碍,但还不能说原告必然败诉。一方面原告有补充事实证据的机会,另一方面法庭提到原告之一莎拉·安德森提交了直接侵权证据,她的诉请可以继续得到审理。
(三)美国案例分析2——美国GettyImages诉StabilityAI
尽管如此,Getty诉状包含不少具体依据,对StableDiffusion模型的技术原理也做了不错的陈述。排除部分显然是为了诉讼定制的夸大表述,Getty诉状体现了比较高的专业水平。
Getty案和莎拉·安德森等代表的艺术家群体与AI的诉讼在策略和证据上有不同看点。
1.商标权的主张和证据
Getty诉状中证明被告侵害商标权的图片质量都惨不忍睹,但对这些证据的抗辩攻防会影响整个诉讼的结果。如果被告确实甚至确实故意抄袭原告商标水印,就没有理由相信被告会不抄袭原告图像。
生成式人工智能不需要依靠复制来学习图形,这已经是公认的技术原理。从实际情况分析,AI训练需要天文数字的训练图片,StableDiffusion利用过Getty图片并不令人意外。但是AI如果在经过海量图片训练后仍然把Getty的水印误解为通用图形的必要背景,这就不符合常识。
为解决已经训练过的数据不能满足特定需求的问题,例如由于普遍训练使用欧美和韩国女性图片素材,要精准生成藏族女性图像就要增加专门的训练素材,因此需要开放用户在大模型基础上定向训练专门的图像。StableDiffusion除了提供通用素材训练的技术支持外,也允许用户自行搭建定向训练素材的Lora数据库。
大家应该有印象,一幅出色的StableDiffusion是什么水平。比如人像光影和毛发,AI可以优秀如斯。
(AI生图)
虽然提示词(Prompt)水平直接影响StableDiffusion输出结果,但能差到Getty举证图片的地步,如果不是使用特定素材的Lora定向训练的结果,那就是需要在降低提示词水平上长期训练了。
原告诉状第52段和58段及其举例值得专门分析和回应,但篇幅和内容都已经超过本文范围,留待对生成式AI是抄袭还是原创的专题中讨论。
2.技术贴的论证——StableDiffusion有没有故意侵权
Getty作为原告不可避免在诉状中展开对StableDiffusion的技术分析,力图证明被告存在故意侵权。我个人认为Getty诉状中的技术分析相比莎拉·安德森案诉状,减少了对数学理论的依赖,转而使用比较通用的逻辑和步骤表述,有利于争取法庭理解。
(1)诉状技术贴—生成式训练技术
Getty在诉状第36节阐述了被告StableDiffusion模型数据训练流程和原理:
StabilityAI创建并维护了名为StableDiffusion的模型。据了解,StabilityAI使用以下从输入到输出的步骤:
a.首先,StabilityAI复制了数十亿的文本和图片配对——如可从GettyImages网站获取的那些——并将其加载到计算机内存中以训练模型。
b.其次,StabilityAI对图像进行编码,创建占用较少内存的图像较小版本。另外,StabilityAI也对配对的文本进行编码。StabilityAI保留并存储编码后的图像和文本的副本,作为训练模型的一个重要环节。
c.第三,StabilityAI向编码的图像添加视觉“噪声”,即进一步修改了图像,使得难以辨认出图像所代表的视觉内容。由于图像的视觉质量已经被有意降低,以便于“训练”模型去除“噪声”。通过有意向现有的与文本关联的图像添加视觉噪声,StabilityAI教导模型生成与特定文本描述(例如,“在日落时分海滩上玩耍的狗”)相符的输出图像。
d.第四,模型解码修改的图像,并自学通过比较解码后图像和已经复制和存储的原始图像和文本描述来去除噪声。通过学习解码噪声,模型学会提供——在某些情况下,——和没有噪声的原始图像实质一致的图像。
首先,同样重复一个技术定论,像素不是AI对图形的理解方式,复制行为是被生成式人工智能技术视为需要改正的bug。
其次,d段所称的特殊情况,如果不是程序出错,就是被训练素材独一无二的情况。例如达芬奇的蒙娜丽莎只有一幅,如果让AI生成一幅还原版达芬奇的蒙娜丽莎,AI只能有拒绝或者依葫芦画瓢两个选项。如果是选“帮我画一枝晶莹剔透的牡丹花”(本提示著作权属于百度)或者名动一时的“梅西敬酒图”,AI解决任何有创作空间的需求根本不存在抄袭的可能。
(2)诉状技术贴——想象中的节外生枝
就临时复制而言,因为不需要在输出时复制,生成式AI本身就不需要保留训练素材,而是保留训练结果中每种图片的数学特征。请教一位同样不愿意披露姓名的人工智能专家,他认为StableDiffusion除了数据输入和训练中为学习而有临时复制外,尤其在输出阶段对复制没有任何需求。沟通达成的一致意见是诉状第43节意见是为了让客户满意,而法庭要看的是证据。由于StableDiffusion在2022年底就已开源,可以方便地通过公开源码核实模型的技术实现方式,也为解决这项争议提供更开放的机会。
七、人工智能数据训练的合理使用是一次全球法律的竞争
(一)大人,时代变了
知识产权法教授DanielGervais认为:“如果你给AI看了10部斯蒂芬·金的小说,然后让它写一部斯蒂芬·金风格的小说,那么你就是在直接与斯蒂芬·金竞争。这显然不算是合适使用”[xxiii]。值得回味的是,如果Daniel教授举例中的AI不是智能程序而是人名,结论会正好相反。因为人类学习他人风格而做的表达当然不侵权。
(二)围绕人工智能的法律竞争
要阻滞AI步伐,主动降低技术发展速度实际已不可能。技术像阳光,即使把自家院子全部遮蔽也还会照在别人土地上。
[ii]
[iv](1)thepurposeandcharacteroftheuse,includingwhethersuchuseisofacommercialnatureorisfornonprofiteducationalpurposes;(2)thenatureofthecopyrightedwork;(3)theamountandsubstantialityoftheportionusedinrelationtothecopyrightedworkasawhole;and(4)theeffectoftheuseuponthepotentialmarketfororvalueofthecopyrightedwork.Thefactthataworkisunpublishedshallnotitselfbarafindingoffairuseifsuchfindingismadeuponconsiderationofalltheabovefactors."
[vi]TraininggenerativeAIoncopyrightedworksisusuallyfairusebecauseitfallsintothecategoryofnon-expressive.
Courtsaddressingtechnologies,suchasreverseengineering,searchengines,andplagiarismdetectionsoftware,haveheldthatthese“non-expressiveuses”arefairuse.Thesecasesreflectcopyright’sfundamentaldistinctionbetweenprotectableoriginalexpression,andunprotectablefacts,ideas,abstractions,andfunctionalelements.11
WhethertraininganLLMisanon-expressiveusedependsontheoutputsofthemodel.IfanLLMistrainedproperlyandoperatedwithappropriatesafeguards,itsoutputswillnotresembleitsinputsinawaythatwouldtriggercopyrightliability.TrainingsuchanLLMoncopyrightedworkswouldthusbejustifiedunderthefairusedoctrine.
[viii](18)Inadditiontotheirsignificanceinthecontextofscientificresearch,textanddataminingtechniquesarewidelyusedbothbyprivateandpublicentitiestoanalyselargeamountsofdataindifferentareasoflifeandforvariouspurposes,includingforgovernmentservices,complexbusinessdecisionsandthedevelopmentofnewapplicationsortechnologies.……Inordertoprovideformorelegalcertaintyinsuchcasesandtoencourageinnovationalsointheprivatesector,thisDirectiveshouldprovide,undercertainconditions,foranexceptionorlimitationforreproductionsandextractionsofworksorothersubjectmatter,forthepurposesoftextanddatamining,andallowthecopiesmadetoberetainedforaslongasisnecessaryforthosetextanddataminingpurposes.
Thisexceptionorlimitationshouldonlyapplywheretheworkorothersubjectmatterisaccessedlawfullybythebeneficiary,includingwhenithasbeenmadeavailabletothepubliconline,andinsofarastherightholdershavenotreservedinanappropriatemannertherightstomakereproductionsandextractionsfortextanddatamining.Inthecaseofcontentthathasbeenmadepubliclyavailableonline,itshouldonlybeconsideredappropriatetoreservethoserightsbytheuseofmachine-readablemeans,includingmetadataandtermsandconditionsofawebsiteoraservice.
Copiesfortextanddataanalysisfornon-commercialresearch
(1)Themakingofacopyofaworkbyapersonwhohaslawfulaccesstotheworkdoesnotinfringecopyrightintheworkprovidedthat—
(a)thecopyismadeinorderthatapersonwhohaslawfulaccesstotheworkmaycarryoutacomputationalanalysisofanythingrecordedintheworkforthesolepurposeofresearchforanon-commercialpurpose,and
(b)thecopyisaccompaniedbyasufficientacknowledgement(unlessthiswouldbeimpossibleforreasonsofpracticalityorotherwise).
[x]
58.TheGovernmenthasdecidedtointroduceanewcopyrightanddatabaserightexceptionwhichallowsTDMforanypurpose.TheGovernmentwillidentifysuitablelegislationtomaketherequiredchangesinduecourse.
59.IntroducinganexceptionwhichappliestocommercialTDMwillbringbenefitstoawiderangeofstakeholdersintheUK.Theseincluderesearchers,AIdevelopers,smallbusinesses,culturalheritageinstitutions,journalists,andengagedcitizens.Targetedproductsandserviceswillbenefitbusinessesandcustomers.Researchoutcomescouldalsobenefitthewiderpublic.Thiscouldbe,forexample,bysupportingresearchandinnovationinpublichealth.SomeinthecreativeindustriesalsouseTDMandAItounderstandtheirmarketorcreatenewworks–theywillalsoseebenefits.Thebenefitswillbereducingthetimeneededtoobtainpermissionfrommultiplerightsholdersandnolicensefeetopay.ThiswillspeeduptheTDMprocessanddevelopmentofAI.
[xi]《日本2018年著作权法修正权利限制规定概要》高嘉鸿108.5智慧财产权月刊VOL.245