林华人工智能数据训练的法律竞争

本文转载自“林华”公众号,作者林华。

大型语言模型的爆发,宣示生成式人工智能为历史翻开断代的一页,文明和社会的底层逻辑正在悄然切换。OpenAI推出的ChatGPT代表当下生成式大语言模型的顶点,StabilityAI推出的StableDiffusion和Midjourney就代表生成式图像模型的高峰。

不论模型设计的技术水平有多高,现阶段技术条件下数据训练质量对AI性能都具有决定性影响。ChatGPT模式是典型的大力出奇迹,3.5版本以来通过千亿级别的数据暴力训练,终于涌现出通过图灵测试的智能;StableDiffusion和Midjourney代表的图像模型同样需要大量素材喂养。

(一)《著作权法》

第15条:汇编若干作品、作品的片段或者不构成作品的数据或者其他材料,对其内容的选择或者编排体现独创性的作品,为汇编作品,其著作权由汇编人享有,但行使著作权时,不得侵犯原作品的著作权。

第16条:使用改编、翻译、注释、整理、汇编已有作品而产生的作品进行出版、演出和制作录音录像制品,应当取得该作品的著作权人和原作品的著作权人许可,并支付报酬。

(二)《生成式人工智能服务管理暂行办法》

由网信办等部委联合发布的暂行办法第4条规定:“提供和使用生成式人工智能服务,应当……遵守以下规定:……(三)尊重知识产权”。

(一)行为分解的意义

1.解构是为了更好的整体分析

数据输入、训练过程和结果输出,是完整的人工智能数据训练中前后衔接的三个阶段。准确分拆每个阶段是正确认识和评价每个阶段的前提,而正确评价每个阶段才能全面判断作为行为整体的数据训练。

人工智能数据训练的技术过程的法律后果,实际分别由数据输入和结果输出端吸收,即只需要对数据输入和结果输出两个阶段做法律评价。但是了解数据训练过程的技术实现方式,是对训练结果输出进行法律评价和正确适用法律分析的前提。

举一个例子,两位学生解同一道题做出相同答案。判断其中是否存在抄袭,不能只看做题结果而要追溯做题过程是否存在作弊。

2.数据输入和结果输出相互独立

数据输入是模型训练的起点和过程,结果输出是对训练成果的使用。数据输入和结果输出不但在数据训练全过程中相互独立,甚至未必一一对应,可能在逻辑上脱链。比如为实现测试、校验、研究等目的,就可能只输入而不需要输出。

3.分别适用法律规则

中国对著作权合理使用的基本规定分别在《著作权法》和《著作权法实施条例》。

《著作权法》第24条规定:“在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益:(一)为个人学习、研究或者欣赏,使用他人已经发表的作品;……(六)为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行。前款规定适用于对与著作权有关的权利的限制”。

《著作权法实施条例》第21条规定:“依照著作权法有关规定,使用可以不经著作权人许可的已经发表的作品的,不得影响该作品的正常使用,也不得不合理地损害著作权人的合法利益”。

依次分析前述著作权法第24条中第1和6两款列举规定。关于第六款,人工智能数据训练性质和“科学研究”倒是接近,但该款“少量复制”的规定和大规模数据训练的需要相冲突。因此适用第六款论证AI训练的数据输入可以适用合理使用,困难相当大。

第24条第1款规定的合理使用场景是“为个人学习、研究或者欣赏,使用他人已经发表的作品”。有专家认为该款对“个人”主体的限定使AI训练难以适用,但即使从《著作权法》分析“个人”主体的限定也并不能排除AI训练的适用。

1.著作权法没有规定“个人”必须是自然人

一部法律总则对全部法条都有统摄作用。《著作权法》总则中第2条列举本法适用的法律主体包括:“中国公民、法人或者非法人组织”,其中并没有使用“个人”。中国公民是(中国籍)自然人概念的法律化,具有一致的指向。但著作权法总则没有把个人作为和组织并列的主体,即个人和公民(以及自然人)在著作权法上并不是必然等价的概念。

2.著作权法使用的“个人”有充分的解释空间

除前引第24条(一)款“为个人学习、研究或者欣赏”的规定外,《著作权法》使用“个人”表述的还有第49条和第52条两处。

其中第49条第2款是对禁止破坏技术措施的规定:“未经权利人许可,任何组织或者个人不得故意避开或者破坏技术措施......”;第52条第1款是对禁止侵害署名权的规定:“有下列侵权行为的,应当根据情况,承担......等民事责任:......(三)没有参加创作,为谋取个人名利,在他人作品上署名的”。

根据上述第49条,个人和组织是并列的法律主体,单独从这一条看似乎支持个人和公民/自然人等同的理解。但是著作权法第52条又显然不支持个人和公民等同。

著作权法第12条对署名权主体的规定是:“在作品上署名的自然人、法人或者非法人组织”,所以署名权可以为所有主体平等行使。理论上侵害署名权和享有署名权的主体应该做一体解释,实践中以各类组织名义(包括院系、编写组、研究团队)署名现象普遍存在。那么不论主张组织不具有侵害署名权的能力,还是主张组织侵害署名权不受第52条限制,都是和现实和理论冲突。唯一可行的解释是第52条禁止侵害署名权规定中的个人,包括组织。

3.类似情况适用参照规则

在著作权法总则没有限定甚至没有使用“个人”,且使用“个人”的不同条款含义不一致情况下,不能得出著作权法中的个人和公民/自然人等同的结论。因此著作权法第24条使用的“个人”不仅具有弹性解释的可能,而且可以适用对类似规范的参照。

事实上这里的参照可以是双向的。不但是第24条的“个人”可以参照“组织”的规定,第52条的“组织”也可以参照对“个人”的规定。

4.实践需要扩大解释或参照适用

将学习、研究或者欣赏的合理使用范围扩大到自然人以外的主体,远不单是论理问题而是现实已经发生的切实需要。试举一例,利用中国知网的CNKI论文进行查重,适用现行法律所遇到的法律争议之一就是主张以研究为目的的合理使用的主体适格性[1]。

扩大解释著作权法第24条中的“个人”或者参照“组织”的范围适用,理论上没有障碍,实践中确有必须。

(三)合理使用立法模式对AI数据训练的影响著作权合理使用立法有限定严格的列举模式,以及只规定判断原则的开放模式。显然开放模式的弹性和宽松度要大的多。中国著作权合理使用立法是以著作权法第24条的具体列举,加实施条例第21条的三步检验并行的模式。适用该种模式仍然以行为落入著作权法24条具体列举范围为条件,理论上不会比单纯列举模式的严格程度低。

由于列举模式的刚性,在人工智能发展初期阶段很难有提前立法覆盖AI数据训练全程,最多可以用来判断单个阶段的合理使用。唯有开放式合理使用可能直接适用从数据输入到结果输出的全过程。

韩国著作权法分别在第35条第2款规定了临时复制许可,在第3款规定了合理使用制度。该法第35条2条款规定:“使用者在计算机上使用作品时,使用者可以为稳定有效处理信息目的,在计算机上临时复制该作品。但是,本规定不适用于以侵权方式使用作品“[2]。该款显然认可计算机临时复制属于侵权例外,而根据该款但书规定的排除条件,完整的判断人工智能训练的数据输入是否合法需要结合其它规定,即第3款的合理使用。

日本著作权法和韩国著作权法类似,在2018年修订版著作权法第47条之4款第1项规定了包括计算机缓存等临时复制的合理使用[3],可以作为人工智能数据训练输入阶段的判断依据之一。同样,完整判断数据训练行为在日本是否可以适用合理使用,需要结合第30条4款以及第47条5款。

(1)使用目的和性质,包括是否为商业目的或盈利的教育目的;

(2)被使用作品的性质;

(3)被使用内容相对于被使用作品整体的数量和重要性;

(4)被使用作品因此受到潜在的市场影响;[4]

2.关于数据训练与合理使用的专家意见

萨格教授的证词观点鲜明、论证清晰而且做到一气呵成,以下完整引用主文中对合理使用的部分(专家证词附录部分还有展开论述,建议检索原文阅读):

萨格证词摘要:

生成式人工智能并不是为了复制原创而设计。[6]

(二)欧盟立法

1.欧盟立法结构

2.DSM指令与TDM规则

DSM指令中与人工智能数据训练对应的行为,称为文本与数据挖掘(TextDataMining,简称“TDM”)。

指令第4条规定的合理使用相比第3条而言为科学研究以外的数据挖掘敞开通道,但同时为权利人预设禁止他人获取的保留权。参见指令前序部分第18条,可了解指令第4条扩大合理使用范围的立法理由:

“(18)文本和数据挖掘技术除了在科学研究中的重要性之外,还被私有和公共主体为各种目的和分析不同生活领域而广泛使用,包括政府服务、复杂商业决策以及新应用或技术的开发。……在此类情况下为提供更多法律的确定性并鼓励私有经济体的创新,本指令应在相应情况下设置为文本和数据挖掘目的对作品或其他主题的复制和摘录的例外或限制(注:即合理使用)。

本例外或限制仅适用于受益人合法获取作品或其他主题的情况,包括在网上向公众提供,以及权利人未以适当方式保留复制及文本和数据挖掘权的情况。对于已通过互联网公开提供的内容,只有通过机器可读方式(包括元数据以及网站或服务的条款和条件)才构成有效保留。[8]

(三)英国立法

(四)日本立法

日本在2018年基于“考虑物联网、大数据、人工智能等技术革新所生成的「第四次产业革命」修订著作权法”[11]。该版修订著作权法第47条之5款的规定,已为人工智能数据训练设立了合理使用许可:“通过计算机处理创造新知识或信息之以下行为者,……以任何方式(参考利用比例、数量及对外提供的较低分辨率等)利用他人已公开作品。但有不当损害著作人利益之情形,不在此限。“

日本政府推动人工智能数据训练的积极态度已经超过英国和欧盟,后者的合理使用排除非法获取,而日本甚至将从非法网站获取予以划出从而缩小非法获取的范围。难怪顶尖人工智能专家YannLeCun在推特评价日本已经成为机器学习的天堂。

(五)韩国立法

结合韩国著作权法第35条第2款规定的临时复制许可,韩国对数据训练整体适用合理使用的概率很大。

(六)以色列立法

(一)中国态度与国际条约义务

如本文第二部分所述,单独看网信办等新近颁布的《生成式人工智能服务管理暂行办法》第4条和第7条,已经封闭了AI数据训练从输入到结果输出适用合理使用的可能。但是即使暂行办法排除合理使用,依旧存在两种重新适用的可能。

第一种可能是通过立法或者对《著作权法》进行解释,前文且已论证在法律执行中进行解释至少有能力解决利用人工智能数据训练进行科学研究中的合理使用问题;第二种可能是寻找合理使用制度以外支持利用受著作权保护作品进行数据训练的依据,最有可能完成这项任务的是著作权保护例外的规定。

中国参加的国际条约,即使本国法中没有明确写明也对中国具有约束力。中国参加的《与贸易有关的知识产权协定》(WTO知识产权协定)第9条“与《伯尔尼公约》的关系”约定以下两款:

1.各成员应遵守《伯尔尼公约》(1971)第1条至第21条及其附录的规定。但是,对于该公约第6条之二授予或派生的权利,各成员在本协定项下不享有权利或义务。

此外我国《计算机软件保护条例》第6条也规定条例对软件著作权的保护不延及开发软件所用的思想、处理过程、操作方法或者数学概念等。

依本文观点及第六部分“技术”等论证,至少对生成式人工智能而言,不论其数据训练对象是文字还是图像内容,其生成结果都只是对训练数据中思想、观念、技法、风格(萨格教授习惯称为思想和事实/Facts,或非表达因素)而不是对作品表达的利用。换而言之,生成式人工智能利用的是训练素材中可以生成表达的部分,比如思想和风格。

(二)其他海外立法

1.排除对非表达部分的保护

日本著作权法第30条第4款规定著作权不保护对作品表达的思想或感情之外目的之使用,并特地提及用于数据分析(对大量作品或大量作品中语言、声音、图像或其他基本数据进行提取、比较、分类或其他统计分析)的情况适用第47条第5款(参见本文第四部分之(四)的解释)。

2.间接允许使用

欧盟议会于2023年6月发布关于人工智能立法立场[16]中,要求人工智能模型和生成内容的提供者,必须发布有关使用受著作权法保护的训练数据的信息(publishinformationontheuseoftrainingdataprotectedundercopyrightlaw)。欧盟立场只要求人工智能和生产内容提供者明示训练所使用受著作权保护数据的信息,并没有要求其获得许可更没有给著作权人拒绝进行许可的权利。结合对欧盟在DSM等法规中的立场,可以得出欧盟支持使用受著作权保护作品进行AI数据训练的行为设定合理使用。

对当下引发争议最大的生成式人工智能技术原理做基本复盘,对厘清人工智能输出结果的生成原理,进而判断AI数据训练过程是否存在侵权,具有重要意义。

法律学者研究人工智能技术的确有很多专业障碍,虽然也有一些阐释清晰的技术贴[17]和书籍(比如吴军的《智能时代》),但技术圈外无法从算法层面完全掌握。好在要做数据训练的合法性判断只需要理解生成式的基本原理和方法论。一并推荐阅读萨格教授今年7月为美国律师协会知识产权法分部讲座的PPT《生成人工智能抓取/挖掘的公开信息》[18],有助于从简单的阐释中理解生成式人工智能数据训练的基本状况。

并不推荐法学者都亲自研究人工智能技术这样庞大的技术体系。用最简单的逻辑表述,生成式人工智能就是通过对大量数据材料的学习,提炼各种问题解决方案或者不同类型作品的数据特征,并基于以上机器学习习得的知识根据指令生成需要的结果,不论是解决问题、输出图像或者文字。

语言大模型(LLM)原理比图形大模型原理解释起来更简单。ChatGPT的基本原理就是通过海量数据的预训练学习语言规律和无差别领域的背景知识。经过天文量级的数据训练,例如当下风行的ChatGPT4已训练过1.5万亿单词和1750亿参数,AI学会根据问题逐个预测出最接近需要的每个单词。

图像大模型技术之所以复杂,是因为在图像识别这样基础和初始的需求上,计算机就遇到了严重挑战。很多年来人工智能连猫的图像也难以准确识别。2020年一个苏格兰足球俱乐部引入配置AI追踪技术的智能直播系统,控制镜头紧跟场上足球的移动进行直播。遗憾的是AI把裁判的光头当成足球,裁判成了全场转播唯一的高光和赢家。

AI和人类理解图形特征的方式不一样。人类识别和比对图形一致性是通过像素,数字技术方案则是用散列函数(HashFunction)把任意大小(或长度)的文件压缩成128位的信息摘要(哈希值),再通过不同文件的哈希值匹配是否一致。AI通过训练提炼出AI才能理解的图形特征。AI并没有记住图形,记住的是数学式。

GAN对抗模型是一种非常流行的图像生成模型。使用GAN模型的AI生成一个编码器和一个解码器,把同一张图同时喂给编码器和解码器,由编码器对原图不断加数字噪音,解码器则不断降噪试图辨别是否原图。通过编码器和解码器反复轮回的体内博弈,AI自己学会提炼出适合于程序识别格式的文件特征。StabilityAI出品的全球最大图像生成模型StableDiffusion训练方法则是根据每张图片自有的分布规律,学习图形和文字标签之间的关系,在去噪过程当中实现图像生成。

很多观点认为人工智能是拼接已有作品,但这并不符合生成式人工智能的学习过程。拼接的前提是大量局部复制(少量情况下完整复制),但AI不是为复制而学习,是为了掌握训练数据在技术分析意义上的特征而学习,复制对生成式人工智能在技术上的意义是程序出错。就StableDiffusion模型是否会在生成过程中复制训练数据请教过一位不愿意具名的人工智能图像处理专家,这位专家认为模型学到的都是数学表达,并不会真的把一个图片的某个部分复制到结果里面。

生成式AI的技术机制不需要也不支持抄袭。

AI哪有坏心眼,AI就没心眼。

七、案例分析与借鉴

(一)中国案例分析

1.使用他人作品元素的商业实践

2.使用他人作品元素的侵权案例

(1)《此间的少年》案

金庸在2015年以小说《此间的少年》中使用原告《射雕英雄传》《天龙八部》《笑傲江湖》《神雕侠侣》等作品角色,侵害原告著作权为由,将涉案小说作者杨治(笔名江南)等诉至法院。广州知识产权法院于2023年4月以(2018)粤73民终3169号判决书,认定《此间的少年》和原告作品在故事情节表达、时空背景、故事线索与事件、具体故事场景和内在逻辑等皆不同,但涉案小说多数人物名称、主要人物性格、人物关系与原告作品小说有诸多相似之处,存在抄袭剽窃行为,侵害了涉案作品著作权。

(2)《锦绣未央》案

北京市朝阳区人民法院在(2017)京0105民初62752号等系列判决书中认定,周静在其创作的小说《锦绣未央》中抄袭温瑞安等12名作者的《温柔一刀》《身历六帝宠不衰》等16部小说的语句和情节,侵犯了署名权、复制权和发行权。

西安佳韵社和上海箫明公司之间这场为《我的团长我的团》著作权侵权纠纷开启连续三个审级的诉讼,是解释和适用著作权合理使用制度最经典的案例之一。

西安佳韵社在2020年将上海箫明公司公司诉至北京市互联网法院,称被告未经许可提供电视剧《我的团长我的团》的在线播放,侵犯了原告对涉案作品享有的独家信息网络传播权。被告上海箫明公司通过自己经营的“飞幕”APP提供“听音识剧”功能,将涉案作品以1分钟为单位剪辑后上传到服务器,APP后台通过语音识别用户播放声音,在和服务器中作品片段匹配后即向用户播放该不超过1分钟的片段。

上海箫明公司抗辩其提供的“听声识剧”服务是向不熟悉影视作品的用户介绍影视作品,在功能和目的上都不是提供在线播放业务。被告为用户提供的涉案作品片段不超过1分钟,占43集作品的比例微乎其微,无法表达出完整的故事情节也不会对涉案作品起到替代作用。

北京市互联网法院一审审理认为,虽然被告在识别并匹配后仅向用户提供每次1分钟的片段,但其行为已构成信息网络传播,侵害了原告权利。

北京市高级人民法院于2022年底在(2022)京民再62号再审判决书中又撤销二审判决,改认定上海箫明公司公司行为不构成合理使用,只是将向西安佳韵社公司赔偿的经济损失从一审的6万降至1万元。

4.观点总结

综合以上商业实践及案例,可以得出以下几个结论:

(1)碎片化使用他人作品元素,并不必然可以援引合理使用

(2)大量使用他人作品元素,尤其使用知名角色名称或经典台词、情节等细节,可能构成侵权;

(3)人工智能数据训练能否适用合理使用,关键看AI学习和利用的是他人作品风格、思想、观念、技法,还是直接使用作品元素

(二)美国案例分析1—安德森等诉StabilityAI等

美国法院在今年1月先后受理的两起完全不同的著作权人起诉Stab

安德森等诉StabilityAI等人工智能公司侵权的重要性远不止数字上“第一案”的形式意义,而是三位原告以艺术家代表身份为艺术家群体向人工智能企业发起诉讼。这起诉讼体现了艺术社群面对人工智能骤然挑战的焦虑,代表了众多绘画师的不安。本案结果必将对艺术家群体和人工智能产业同时产生重大影响。

原告证据看来没有弥补诉状过于依赖纯理论分析的缺陷。根据最新报道,法官WilliamOrrick在庭审前的听证会已经表示倾向于驳回本案原告的大部分诉请。法庭认为原告应该清楚的区分对不同原告的索赔,尤其应该就其生成式人工智能侵权的主张提供事实证据,否则即使被告的系统已经对50亿张压缩图像进行训练也不能证明这些训练素材包括原告作品。[21]

本案进程显然遇到障碍,但还不能说原告必然败诉。一方面原告有补充事实证据的机会,另一方面法庭提到原告之一莎拉·安德森提交了直接侵权证据,她的诉请可以继续得到审理。

(三)美国案例分析2—美国GettyImages诉StabilityAI

尽管如此,Getty诉状包含不少具体依据,对StableDiffusion模型的技术原理也做了不错的陈述。排除部分显然为了诉讼定制的夸大表述,Getty诉状体现了比较高的专业水平。

Getty案和莎拉·安德森等代表的艺术家群体与AI的诉讼在策略和证据上有不同看点。

1.商标权的主张和证据

Getty诉状中证明被告侵害商标权的图片质量都惨不忍睹,但对这些证据的抗辩攻防会影响整个诉讼的结果。如果被告确实甚至确实故意抄袭原告商标水印,就没有理由相信被告会不抄袭原告图像。

生成式人工智能不需要依靠复制来学习图形,这已经是公认的技术原理。从实际情况分析,AI训练需要天文数字的训练图片,StableDiffusion利用过Getty图片并不令人意外。但是AI如果在经过海量图片训练后仍然把Getty的水印误解为通用图形的必要背景,这就不符合常识。

为解决已经训练过的数据不能满足特定需求的问题,例如由于普遍训练使用欧美和韩国女性图片素材,要精准生成藏族女性图像就要增加专门的训练素材,因此需要开放用户在大模型基础上定向训练专门的图像。StableDiffusion除了提供通用素材训练的技术支持外,也允许用户自行搭建定向训练素材的Lora数据库。

大家应该有印象,一幅出色的StableDiffusion是什么水平。比如人像光影和毛发,AI可以优秀如斯。

虽然提示词(Prompt)水平直接影响StableDiffusion输出结果,但能差到Getty举证图片的地步,如果不是使用特定素材的Lora定向训练的结果,那就是需要在降低提示词水平上长期训练了。

原告诉状第52段和58段及其举例值得专门分析和回应,但篇幅和内容都已经超过本文范围,留待对生成式AI是抄袭还是原创的专题中讨论。

2.技术贴的论证-StableDiffusion有没有故意侵权

Getty作为原告不可避免在诉状中展开对StableDiffusion的技术分析,力图证明被告存在故意侵权。我个人认为Getty诉状中的技术分析相比莎拉·安德森案诉状,减少了对数学理论的依赖,转而使用比较通用的逻辑和步骤表述,有利于争取法庭理解。

1)诉状技术贴—生成式训练技术

Getty在诉状第36节阐述了被告StableDiffusion模型数据训练流程和原理:

StabilityAI创建并维护了名为StableDiffusion的模型。据了解,StabilityAI使用以下从输入到输出的步骤:

a.首先,StabilityAI复制了数十亿的文本和图片配对——如可从GettyImages网站获取的那些——并将其加载到计算机内存中以训练模型。

b.其次,StabilityAI对图像进行编码,创建占用较少内存的图像较小版本。另外,StabilityAI也对配对的文本进行编码。StabilityAI保留并存储编码后的图像和文本的副本,作为训

练模型的一个重要环节。

c.第三,StabilityAI向编码的图像添加视觉“噪声”,即进一步修改了图像,使得难以辨认出图像所代表的视觉内容。由于图像的视觉质量已经被有意降低,以便于“训练”模型去除“噪声”。通过有意向现有的与文本关联的图像添加视觉噪声,StabilityAI教导模型生成与特定文本描述(例如,“在日落时分海滩上玩耍的狗”)相符的输出图像。

d.第四,模型解码修改的图像,并自学通过比较解码后图像和已经复制和存储的原始图像和文本描述来去除噪声。通过学习解码噪声,模型学会提供——在某些情况下,——和没有噪声的原始图像实质一致的图像。

首先,同样重复一个技术定论,像素不是AI对图形的理解方式,复制行为是被生成式人工智能技术视为需要改正的bug。

其次,d段所称的特殊情况,如果不是程序出错,就是被训练素材独一无二的情况。例如达芬奇的蒙娜丽莎只有一幅,如果让AI生成一幅还原版达芬奇的蒙娜丽莎,AI只能有拒绝或者依葫芦画瓢两个选项。如果是选“帮我画一枝晶莹剔透的牡丹花”(本提示著作权属于百度)或者名动一时的“梅西敬酒图”,AI解决任何有创作空间的需求根本不存在抄袭的可能。

(AI生图)

2)诉状技术贴—想象中的节外生枝

就临时复制而言,因为不需要在输出时复制,生成式AI本身就不需要保留训练素材,而是保留训练结果中每种图片的数学特征。请教一位同样不愿意披露姓名的人工智能专家,他认为StableDiffusion除了数据输入和训练中为学习而有临时复制外,尤其在输出阶段对复制没有任何需求。沟通达成的一致意见是诉状第43节意见是为了让客户满意,而法庭要看的是证据。由于Stable

Diffusion在2022年底就已开源,可以方便的通过公开源码核实模型的技术实现方式,也为解决这项争议提供更开放的机会。

(一)大人,时代变了

知识产权法教授DanielGervais认为:“如果你给AI看了10部斯蒂芬·金的小说,然后让它写一部斯蒂芬·金风格的小说,那么你就是在直接与斯蒂芬·金竞争。这显然不算是合适使用”[23]。值得回味的是,如果Daniel教授举例中的AI不是智能程序而是人名,结论会正好相反。因为人类学习他人风格而做的表达当然不侵权。

(二)围绕人工智能的法律竞争

要阻滞AI步伐,主动降低技术发展速度实际已不可能。技术像阳光,即使把自家院子全部遮蔽也还会照在别人土地上。

注释(上下滑动阅览)

【2】Article35-2(TemporaryReproductioninCourseofUsingWorks,etc.)Printedarticles--Whereapersonusesworks,etc.onacomputer,heorshemaytemporarilyreproducesuchworks,etc.inthatcomputertotheextentdeemednecessaryforthepurposeofsmoothandefficientinformationprocessing:Provided,thatthisshallnotapplywheretheuseofsuchworks,etc.infringesoncopyright

【4】(1)thepurposeandcharacteroftheuse,includingwhethersuchuseisofacommercialnatureorisfornonprofiteducationalpurposes;(2)thenatureofthecopyrightedwork;(3)theamountandsubstantialityoftheportionusedinrelationtothecopyrightedworkasawhole;and(4)theeffectoftheuseuponthepotentialmarketfororvalueofthecopyrightedwork.Thefactthataworkisunpublishedshallnotitselfbarafindingoffairuseifsuchfindingismadeuponconsiderationofalltheabovefactors."

【6】TraininggenerativeAIoncopyrightedworksisusuallyfairusebecauseitfallsintothecategoryofnon-expressive.

Courtsaddressingtechnologies,suchasreverseengineering,searchengines,andplagiarismdetectionsoftware,haveheldthatthese“non-expressiveuses”arefairuse.Thesecasesreflectcopyright’sfundamentaldistinctionbetweenprotectableoriginalexpression,andunprotectablefacts,ideas,abstractions,andfunctionalelements.11

WhethertraininganLLMisanon-expressiveusedependsontheoutputsofthemodel.IfanLLMistrainedproperlyandoperatedwithappropriatesafeguards,itsoutputswillnotresembleitsinputsinawaythatwouldtriggercopyrightliability.TrainingsuchanLLMoncopyrightedworkswouldthusbejustifiedunderthefairusedoctrine.

【8】(18)Inadditiontotheirsignificanceinthecontextofscientificresearch,textanddataminingtechniquesarewidelyusedbothbyprivateandpublicentitiestoanalyselargeamountsofdataindifferentareasoflifeandforvariouspurposes,includingforgovernmentservices,complexbusinessdecisionsandthedevelopmentofnewapplicationsortechnologies.……Inordertoprovideformorelegalcertaintyinsuchcasesandtoencourageinnovationalsointheprivatesector,thisDirectiveshouldprovide,undercertainconditions,foranexceptionorlimitationforreproductionsandextractionsofworksorothersubjectmatter,forthepurposesoftextanddatamining,andallowthecopiesmadetoberetainedforaslongasisnecessaryforthosetextanddataminingpurposes.

Thisexceptionorlimitationshouldonlyapplywheretheworkorothersubjectmatterisaccessedlawfullybythebeneficiary,includingwhenithasbeenmadeavailabletothepubliconline,andinsofarastherightholdershavenotreservedinanappropriatemannertherightstomakereproductionsandextractionsfortextanddatamining.Inthecaseofcontentthathasbeenmadepubliclyavailableonline,itshouldonlybeconsideredappropriatetoreservethoserightsbytheuseofmachine-readablemeans,includingmetadataandtermsandconditionsofawebsiteoraservice.

Copiesfortextanddataanalysisfornon-commercialresearch

(1)Themakingofacopyofaworkbyapersonwhohaslawfulaccesstotheworkdoesnotinfringecopyrightintheworkprovidedthat—

(a)thecopyismadeinorderthatapersonwhohaslawfulaccesstotheworkmaycarryoutacomputationalanalysisofanythingrecordedintheworkforthesolepurposeofresearchforanon-commercialpurpose,and

(b)thecopyisaccompaniedbyasufficientacknowledgement(unlessthiswouldbeimpossibleforreasonsofpracticalityorotherwise).

【10】,Conclusion

58.TheGovernmenthasdecidedtointroduceanewcopyrightanddatabaserightexceptionwhichallowsTDMforanypurpose.TheGovernmentwillidentifysuitablelegislationtomaketherequiredchangesinduecourse.

59.IntroducinganexceptionwhichappliestocommercialTDMwillbringbenefitstoawiderangeofstakeholdersintheUK.Theseincluderesearchers,AIdevelopers,smallbusinesses,culturalheritageinstitutions,journalists,andengagedcitizens.Targetedproductsandserviceswillbenefitbusinessesandcustomers.Researchoutcomescouldalsobenefitthewiderpublic.Thiscouldbe,forexample,bysupportingresearchandinnovationinpublichealth.SomeinthecreativeindustriesalsouseTDMandAItounderstandtheirmarketorcreatenewworks–theywillalsoseebenefits.Thebenefitswillbereducingthetimeneededtoobtainpermissionfrommultiplerightsholdersandnolicensefeetopay.ThiswillspeeduptheTDMprocessanddevelopmentofAI.

【11】《日本2018年著作权法修正权利限制规定概要》高嘉鸿108.5智慧财产权月刊VOL.245

【19】深圳市南山区法院(2019)粤0305民初14010号

【21】

THE END
1.法律法规素材法律法规图片法律法规素材图片下载熊猫办公为您找到73个法律法规素材图片,包括法律法规图片,法律法规素材,法律法规背景,法律法规模板源文件下载服务,包含PSD、PNG、JPG、AI、CDR等多种格式的素材,更多关于法律法规素材、图片、背景、矢量、UI、PS、免抠,艺术字、插画、配图等设计素材模板https://www.tukuppt.com/speciall/falvfagui0818.html
2.网络普法原创海报传承宪法文化,弘扬法治精神原标题:《【网络普法】原创海报|传承宪法文化,弘扬法治精神》 阅读原文https://www.thepaper.cn/newsDetail_forward_29539495
3.法治网事·尊宪崇法海报关于宪法与法治,典籍里这样说原标题:【法治网事·尊宪崇法】海报 | 关于宪法与法治,典籍里这样说 【法治网事·尊宪崇法】 在浩如烟海的中国典籍里,蕴藏着丰富的法治思想。让我们从5张海报里,读懂法治中国。 法规制度的生命力在于执行。 宪法作为上层建筑,一定要适应经济基础的变化而变化。 http://fazhi.yunnan.cn/system/2024/12/05/033325178.shtml
4.法治网事·尊宪崇法海报关于宪法与法治,典籍里这样说在浩如烟海的中国典籍里,蕴藏着丰富的法治思想。让我们从5张海报里,读懂法治中国。 法规制度的生命力在于执行。 宪法作为上层建筑,一定要适应经济基础的变化而变化。 资料来源:新华网、求是网、人民网等 监制 张宁 统筹 廖慧| 陈畅 策划 孙满桃 制作 https://legal.gmw.cn/2024-12/05/content_37719879.htm
5.知律法于心守法律于行图片知律法于心守法律于行设计素材红动中国素材网提供61个知律法于心守法律于行图片、知律法于心守法律于行素材、知律法于心守法律于行背景、知律法于心守法律于行模板、知律法于心守法律于行海报等PS素材下载,包含PSD、AI、PNG、JPG、CDR等格式源文件素材,更多精品知律法于心守法律于行设计素材下载,就来https://so.redocn.com/xin/d6aac2c9b7a8d3dad0c4cad8b7a8c2c9d3dad0d0.htm
6.海报知法懂法与法同行海报|知法懂法 与法同行 制图:汪阳卉倩 编辑:张祯 初审:王长江 终审:田华荣https://www.hshan.com/news/msnews/2024-12-04/935618.html
7.海报2024年宪法宣传活动主题和海报法治治国特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。 Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storahttps://www.163.com/dy/article/JIIR68R00534EUC3.html
8.宪法宣传周一组关于检察的“宪”定海报宪法宣传周|一组关于检察的“宪”定海报 来源 | 上海普陀检察 检察机关作为国家法律监督机关,在履职中贯彻落实宪法精神,加强宪法实施,用宪法赋予的检察权,努力让人民群众在每一个司法案件中 感受到公平正义。来看一组关于检察的“宪”定海报。https://baijiahao.baidu.com/s?id=1817735522612436262&wfr=spider&for=pc
9.法律元素法律元素图片法律元素素材觅知网为您找到300个原创法律元素设计图片,包括法律元素图片,法律元素素材,法律元素海报,法律元素背景,法律元素模板源文件下载服务,包含PSD、PNG、JPG、AI、CDR等格式素材,更多关于法律元素素材、图片、海报、背景、插画、配图、矢量、UI、PS、免抠,模板、艺术字、Phttps://www.51miz.com/so-sucai/223767.html
10.法律宪法素材法律宪法图片元素觅元素是设计素材的免费下载网站,提供法律宪法素材,法律宪法图片,法律宪法免抠素材设计元素,法律宪法png图片透明背景等素材免费下载。https://www.51yuansu.com/tupian/falvxianfa.html
11.法律至上图片法律至上素材图片大全摄图网汇聚法律至上图片大全:法律至上素材、法律至上高清图片、法律至上背景图片等。你可以找法律至上设计灵感、摄影创意,我们欢迎您下载法律至上vrf正版授权图片,商用无压力https://699pic.com/image/16511801.html
12.中金AI十年展望(五):从ChatGPT到通用智能,新长征上的新变化图表15:DALL·E 2 通过文字添加图片元素 资料来源:DALL·E 2官网,中金公司研究部 图表16:DALL·E 2通过文字输入生成图片结果示例 资料来源:DALL·E 2官网,中金公司研究部 全球范围内AIGC独角兽已初步具备B C端的变现能力,但海外公司明显领先于国内。AIGC应用层可分为图像、文本、视频、音频,海外AIGC企业如Jaspehttp://www.360doc.com/content/23/0208/11/44962430_1066686425.shtml
13.《发现数学之美》11篇(全文)在数学的图形与几何领域,有很多美的元素,适时进行引导,也会引领学生走近美轮美奂的数学天地,感受美的熏陶。三年级的第一单元《对称》的认识,就是一个经典的发现图形美的案例。在上课之前,我搜集了许多对称图形的图片,并且配上优美的音乐,上课播放的时候,大屏幕上一幅幅有关对称的精美图片马上吸引了学生的目光,并且https://www.99xueshu.com/w/ikeypqt7ek98.html
14.QT教程QML3D打印编程技术方法可以被其他元素调用,实现元素之间的交互。 模型-视图编程(Model-View Programming) QML采用模型-视图编程架构,将数据(模型)与用户界面(视图)分离。这有助于提高代码的可维护性和可重用性。在QML中,可以通过ListModel、MapModel等内置模型来处理数据,也可以自定义模型。 https://blog.csdn.net/mtyxb/article/details/137588712
15.培智学校义务教育课程标准(2016年版)1. 熟悉班级环境,能与同伴一起交谈,获取有关信息(例如:同学姓名、任课教师、课程表、场馆名称等),从中体验语言交流的乐趣。具有初步的文明交往意识。 2.在感受与欣赏教学中,应充分调动学生的多感官体验,引导学生感受、体验、表现音乐的元素和情感。激发学生听赏音乐的兴趣,逐步养成聆听音乐的良好习惯,积累感受与https://yun.nxeduyun.com/index.php?r=space/school/theme/content/view&id=794545
16.法律图标图片免费下载法律图标素材法律图标模板千图网为您找到29846张法律图标相关素材,千图网还提供法律图标图片,法律图标素材, 法律图标模板等免费下载服务,千图网是国内专业创意营销服务交易平台,一站式解决企业营销数字化、协同化,实现营销转化效果增长!https://www.58pic.com/tupian/falvtubiao.html
17.法律插画图片法律插画素材法律插画图片下载视觉中国为您找到11276个原创法律插画素材图片,包括法律插画图片,法律插画插画,法律插画模板,法律插画元素,法律插画图标等源文件下载服务,包含PSD、PNG、JPG、AI、CDR等格式素材,更多关于法律插画素材、图片、海报、背景、插画、配图、矢量、UI、PS、免抠,模板、艺https://www.vcg.com/creative-illustration/falvchahua/
18.国珍松花粉是骗人的吗?本文为您深度揭秘其中的疑点首先声明,国珍松花粉是有直销备案和保健食品批准文号的,也就是允许从事直销和销售保健品,但是在销售和宣传过程中需要遵守国家相关法律法规。 其次,有件事要搞清楚,本文的目的不是为了恶意攻击国珍,是为了宣传国家政策,提醒大家注意某些人借着国珍的名义宣传保健品可以治病的谎言。 http://www.icoa.cn/a/702.html
19.传统字体(精选八篇)中国传统文化博大精深,想要将传统文化元素与当代字体设计有机的结合起来,首先需要提高对中国各种传统文化视觉元素的重视,认真领悟价值所在。但是,从目前的实际情况来看,许多字体设计人员却缺乏应有的重视态度,对许多传统文化元素一知半解,却不愿意静下心来坐热一张冷板凳,深入了解一种传统文化元素,还大言不惭的自称自https://www.360wenmi.com/f/cnkeyzl5gmv7.html
20.首个二审改判的MOBA游戏侵权案,游戏行业的思考当然,这并非意味着法律和市场对抄袭“漠视”。实际上,近20年来,法院的既往案例里对游戏玩法、游戏世界观、人物形象和技能、游戏内基础元素的侵权主张都给出过一审或终审判决。 比如玩法保护上,《花千骨》与《太极熊猫》在29个在界面布局和玩法规则上一致、24个装备数值相同/同比例微调、26个功能流程UI“照搬”,这些https://www.tmtpost.com/6245919.html
21.大同城市IP形象征集活动开始了!有关法律责任由参赛者承担。 4.当遇到以下情况时,大赛组委会有权收回奖杯、证书和奖金,并追究相关法律责任: ①正式确认获奖作品侵犯了他人的知识产权。 ②设计者对已获奖作品进行重大修改,并继续在该作品上使用获奖标志或利用其进行宣传。 5.获奖作品的知识产权转移事宜由组委会另行规定。http://www.dtnews.cn/todayhot03/20240511/51776.html