用个人数据训练人工智能,面临哪些法律争议?

大型语言模型的爆发,宣示生成式人工智能为历史翻开断代的一页,文明和社会的底层逻辑正在悄然切换。OpenAI推出的ChatGPT代表当下生成式大语言模型的顶点,StabilityAI推出的StableDiffusion和Midjourney就代表生成式图像模型的高峰。

不论模型设计的技术水平有多高,现阶段技术条件下数据训练质量对AI性能都具有决定性影响。ChatGPT模式是典型的大力出奇迹,3.5版本以来通过千亿级别的数据暴力训练,终于涌现出通过图灵测试的智能;StableDiffusion和Midjourney代表的图像模型同样需要大量素材喂养。

(一)《著作权法》

第15条:汇编若干作品、作品的片段或者不构成作品的数据或者其他材料,对其内容的选择或者编排体现独创性的作品,为汇编作品,其著作权由汇编人享有,但行使著作权时,不得侵犯原作品的著作权。

第16条:使用改编、翻译、注释、整理、汇编已有作品而产生的作品进行出版、演出和制作录音录像制品,应当取得该作品的著作权人和原作品的著作权人许可,并支付报酬。

(二)《生成式人工智能服务管理暂行办法》

由网信办等部委联合发布的暂行办法第4条规定:“提供和使用生成式人工智能服务,应当……遵守以下规定:……(三)尊重知识产权”。

(一)行为分解的意义

1.解构是为了更好的整体分析

数据输入、训练过程和结果输出,是完整的人工智能数据训练中前后衔接的三个阶段。准确分拆每个阶段是正确认识和评价每个阶段的前提,而正确评价每个阶段才能全面判断作为行为整体的数据训练。

人工智能数据训练的技术过程的法律后果,实际分别由数据输入和结果输出端吸收,即只需要对数据输入和结果输出两个阶段做法律评价。但是了解数据训练过程的技术实现方式,是对训练结果输出进行法律评价和正确适用法律分析的前提。

举一个例子,两位学生解同一道题做出相同答案。判断其中是否存在抄袭,不能只看做题结果而要追溯做题过程是否存在作弊。

2.数据输入和结果输出相互独立

数据输入是模型训练的起点和过程,结果输出是对训练成果的使用。数据输入和结果输出不但在数据训练全过程中相互独立,甚至未必一一对应,可能在逻辑上脱链。比如为实现测试、校验、研究等目的,就可能只输入而不需要输出。

3.分别适用法律规则

中国对著作权合理使用的基本规定分别在《著作权法》和《著作权法实施条例》。

《著作权法》第24条规定:“在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益:(一)为个人学习、研究或者欣赏,使用他人已经发表的作品;……(六)为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行。前款规定适用于对与著作权有关的权利的限制”。

《著作权法实施条例》第21条规定:“依照著作权法有关规定,使用可以不经著作权人许可的已经发表的作品的,不得影响该作品的正常使用,也不得不合理地损害著作权人的合法利益”。

依次分析前述著作权法第24条中第1和6两款列举规定。关于第六款,人工智能数据训练性质和“科学研究”倒是接近,但该款“少量复制”的规定和大规模数据训练的需要相冲突。因此适用第六款论证AI训练的数据输入可以适用合理使用,困难相当大。

第24条第1款规定的合理使用场景是“为个人学习、研究或者欣赏,使用他人已经发表的作品”。有专家认为该款对“个人”主体的限定使AI训练难以适用,但即使从《著作权法》分析“个人”主体的限定也并不能排除AI训练的适用。

1.著作权法没有规定“个人”必须是自然人

一部法律总则对全部法条都有统摄作用。《著作权法》总则中第2条列举本法适用的法律主体包括:“中国公民、法人或者非法人组织”,其中并没有使用“个人”。中国公民是(中国籍)自然人概念的法律化,具有一致的指向。但著作权法总则没有把个人作为和组织并列的主体,即个人和公民(以及自然人)在著作权法上并不是必然等价的概念。

2.著作权法使用的“个人”有充分的解释空间

除前引第24条(一)款“为个人学习、研究或者欣赏”的规定外,《著作权法》使用“个人”表述的还有第49条和第52条两处。

其中第49条第2款是对禁止破坏技术措施的规定:“未经权利人许可,任何组织或者个人不得故意避开或者破坏技术措施......”;第52条第1款是对禁止侵害署名权的规定:“有下列侵权行为的,应当根据情况,承担......等民事责任:......(三)没有参加创作,为谋取个人名利,在他人作品上署名的”。

根据上述第49条,个人和组织是并列的法律主体,单独从这一条看似乎支持个人和公民/自然人等同的理解。但是著作权法第52条又显然不支持个人和公民等同。

著作权法第12条对署名权主体的规定是:“在作品上署名的自然人、法人或者非法人组织”,所以署名权可以为所有主体平等行使。理论上侵害署名权和享有署名权的主体应该做一体解释,实践中以各类组织名义(包括院系、编写组、研究团队)署名现象普遍存在。那么不论主张组织不具有侵害署名权的能力,还是主张组织侵害署名权不受第52条限制,都是和现实和理论冲突。唯一可行的解释是第52条禁止侵害署名权规定中的个人,包括组织。

3.类似情况适用参照规则

在著作权法总则没有限定甚至没有使用“个人”,且使用“个人”的不同条款含义不一致情况下,不能得出著作权法中的个人和公民/自然人等同的结论。因此著作权法第24条使用的“个人”不仅具有弹性解释的可能,而且可以适用对类似规范的参照。

事实上这里的参照可以是双向的。不但是第24条的“个人”可以参照“组织”的规定,第52条的“组织”也可以参照对“个人”的规定。

4.实践需要扩大解释或参照适用

将学习、研究或者欣赏的合理使用范围扩大到自然人以外的主体,远不单是伦理问题而是现实已经发生的切实需要。试举一例,利用中国知网的CNKI论文进行查重,适用现行法律所遇到的法律争议之一就是主张以研究为目的的合理使用的主体适格性[i]。

扩大解释著作权法第24条中的“个人”或者参照“组织”的范围适用,理论上没有障碍,实践中确有必需。

(三)合理使用立法模式对AI数据训练的影响

著作权合理使用立法有限定严格的列举模式,以及只规定判断原则的开放模式。显然开放模式的弹性和宽松度要大得多。中国著作权合理使用立法是以著作权法第24条的具体列举,加实施条例第21条的三步检验并行的模式。适用该种模式仍然以行为落入著作权法24条具体列举范围为条件,理论上不会比单纯列举模式的严格程度低。

由于列举模式的刚性,在人工智能发展初期阶段很难有提前立法覆盖AI数据训练全程,最多可以用来判断单个阶段的合理使用。唯有开放式合理使用可能直接适用从数据输入到结果输出的全过程。

韩国著作权法分别在第35条第2款规定了临时复制许可,在第3款规定了合理使用制度。该法第35条2条款规定:“使用者在计算机上使用作品时,使用者可以为稳定有效处理信息目的,在计算机上临时复制该作品。但是,本规定不适用于以侵权方式使用作品”[ii]。该款显然认可计算机临时复制属于侵权例外,而根据该款但书规定的排除条件,完整地判断人工智能训练的数据输入是否合法需要结合其它规定,即第3款的合理使用。

日本著作权法和韩国著作权法类似,在2018年修订版著作权法第47条之4款第1项规定了包括计算机缓存等临时复制的合理使用[iii],可以作为人工智能数据训练输入阶段的判断依据之一。同样,完整判断数据训练行为在日本是否可以适用合理使用,需要结合第30条4款以及第47条5款。

(1)使用目的和性质,包括是否为商业目的或盈利的教育目的;

(2)被使用作品的性质;

(3)被使用内容相对于被使用作品整体的数量和重要性;

(4)被使用作品因此受到潜在的市场影响;[iv]

2.关于数据训练与合理使用的专家意见

萨格教授的证词观点鲜明、论证清晰而且做到一气呵成,以下完整引用主文中对合理使用的部分(专家证词附录部分还有展开论述,建议检索原文阅读):

萨格证词摘要:

生成式人工智能并不是为了复制原创而设计。[vi]

(二)欧盟立法

1.欧盟立法结构

2.DSM指令与TDM规则

DSM指令中与人工智能数据训练对应的行为,称为文本与数据挖掘(TextDataMining,简称“TDM”)。

指令第4条规定的合理使用相比第3条而言为科学研究以外的数据挖掘敞开通道,但同时为权利人预设禁止他人获取的保留权。参见指令前序部分第18条,可了解指令第4条扩大合理使用范围的立法理由:

“(18)文本和数据挖掘技术除了在科学研究中的重要性之外,还被私有和公共主体为各种目的和分析不同生活领域而广泛使用,包括政府服务、复杂商业决策以及新应用或技术的开发。……在此类情况下为提供更多法律的确定性并鼓励私有经济体的创新,本指令应在相应情况下设置为文本和数据挖掘目的对作品或其他主题的复制和摘录的例外或限制(注:即合理使用)。

本例外或限制仅适用于受益人合法获取作品或其他主题的情况,包括在网上向公众提供,以及权利人未以适当方式保留复制及文本和数据挖掘权的情况。对于已通过互联网公开提供的内容,只有通过机器可读方式(包括元数据以及网站或服务的条款和条件)才构成有效保留。”[viii]

(三)英国立法

(四)日本立法

日本在2018年基于“考虑物联网、大数据、人工智能等技术革新所生成的「第四次产业革命」修订著作权法”[xi]。该版修订著作权法第47条之5款的规定,已为人工智能数据训练设立了合理使用许可:“通过计算机处理创造新知识或信息之以下行为者,……以任何方式(参考利用比例、数量及对外提供的较低分辨率等)利用他人已公开作品。但有不当损害著作人利益之情形,不在此限。”

日本政府推动人工智能数据训练的积极态度已经超过英国和欧盟,后者的合理使用排除非法获取,而日本甚至将从非法网站获取予以划出从而缩小非法获取的范围。难怪顶尖人工智能专家YannLeCun在推特评价日本已经成为机器学习的天堂。

(五)韩国立法

结合韩国著作权法第35条第2款规定的临时复制许可,韩国对数据训练整体适用合理使用的概率很大。

(六)以色列立法

(一)中国态度与国际条约义务

如本文第二部分所述,单独看网信办等新近颁布的《生成式人工智能服务管理暂行办法》第4条和第7条,已经封闭了AI数据训练从输入到结果输出适用合理使用的可能。但是即使暂行办法排除合理使用,依旧存在两种重新适用的可能。

第一种可能是通过立法或者对《著作权法》进行解释,前文且已论证在法律执行中进行解释至少有能力解决利用人工智能数据训练进行科学研究中的合理使用问题;第二种可能是寻找合理使用制度以外支持利用受著作权保护作品进行数据训练的依据,最有可能完成这项任务的是著作权保护例外的规定。

中国参加的国际条约,即使在本国法中没有明确写明也对中国具有约束力。中国参加的《与贸易有关的知识产权协定》(WTO知识产权协定)第9条“与《伯尔尼公约》的关系”约定以下两款:

1.各成员应遵守《伯尔尼公约》(1971)第1条至第21条及其附录的规定。但是,对于该公约第6条之二授予或派生的权利,各成员在本协定项下不享有权利或义务。

此外我国《计算机软件保护条例》第6条也规定条例对软件著作权的保护不延及开发软件所用的思想、处理过程、操作方法或者数学概念等。

依本文观点及第六部分“技术”等论证,至少对生成式人工智能而言,不论其数据训练对象是文字还是图像内容,其生成结果都只是对训练数据中思想、观念、技法、风格(萨格教授习惯称为思想和事实/Facts,或非表达因素)而不是对作品表达的利用。换而言之,生成式人工智能利用的是训练素材中可以生成表达的部分,比如思想和风格。

(二)其他海外立法

1.排除对非表达部分的保护

日本著作权法第30条第4款规定著作权不保护对作品表达的思想或感情之外目的之使用,并特地提及用于数据分析(对大量作品或大量作品中语言、声音、图像或其他基本数据进行提取、比较、分类或其他统计分析)的情况适用第47条第5款(参见本文第四部分之(四)的解释)。

2.间接允许使用

欧盟议会于2023年6月发布关于人工智能立法立场[xvi]中,要求人工智能模型和生成内容的提供者,必须发布有关使用受著作权法保护的训练数据的信息(publishinformationontheuseoftrainingdataprotectedundercopyrightlaw)。欧盟立场只要求人工智能和生产内容提供者明示训练所使用受著作权保护数据的信息,并没有要求其获得许可更没有给著作权人拒绝进行许可的权利。结合对欧盟在DSM等法规中的立场,可以得出欧盟支持使用受著作权保护作品进行AI数据训练的行为设定合理使用。

对当下引发争议最大的生成式人工智能技术原理做基本复盘,对厘清人工智能输出结果的生成原理,进而判断AI数据训练过程是否存在侵权,具有重要意义。

法律学者研究人工智能技术的确有很多专业障碍,虽然也有一些阐释清晰的技术贴[xvii]和书籍(比如吴军的《智能时代》),但技术圈外无法从算法层面完全掌握。好在要做数据训练的合法性判断只需要理解生成式的基本原理和方法论。一并推荐阅读萨格教授今年7月为美国律师协会知识产权法分部讲座的PPT《生成人工智能抓取/挖掘的公开信息》[xviii],有助于从简单的阐释中理解生成式人工智能数据训练的基本状况。

并不推荐法学者都亲自研究人工智能技术这样庞大的技术体系。用最简单的逻辑表述,生成式人工智能就是通过对大量数据材料的学习,提炼各种问题解决方案或者不同类型作品的数据特征,并基于以上机器学习习得的知识根据指令生成需要的结果,不论是解决问题、输出图像或者文字。

语言大模型(LLM)原理比图形大模型原理解释起来更简单。ChatGPT的基本原理就是通过海量数据的预训练学习语言规律和无差别领域的背景知识。经过天文量级的数据训练,例如当下风行的ChatGPT4已训练过1.5万亿单词和1750亿参数,AI学会根据问题逐个预测出最接近需要的每个单词。

图像大模型技术之所以复杂,是因为在图像识别这样基础和初始的需求上,计算机就遇到了严重挑战。很多年来人工智能连猫的图像也难以准确识别。2020年一个苏格兰足球俱乐部引入配置AI追踪技术的智能直播系统,控制镜头紧跟场上足球的移动进行直播。遗憾的是AI把裁判的光头当成足球,裁判成了全场转播唯一的高光和赢家。

AI和人类理解图形特征的方式不一样。人类识别和比对图形一致性是通过像素,数字技术方案则是用散列函数(HashFunction)把任意大小(或长度)的文件压缩成128位的信息摘要(哈希值),再通过不同文件的哈希值匹配是否一致。AI通过训练提炼出AI才能理解的图形特征。AI并没有记住图形,记住的是数学式。

GAN对抗模型是一种非常流行的图像生成模型。使用GAN模型的AI生成一个编码器和一个解码器,把同一张图同时喂给编码器和解码器,由编码器对原图不断加数字噪音,解码器则不断降噪试图辨别是否原图。通过编码器和解码器反复轮回的体内博弈,AI自己学会提炼出适合于程序识别格式的文件特征。StabilityAI出品的全球最大图像生成模型StableDiffusion训练方法则是根据每张图片自有的分布规律,学习图形和文字标签之间的关系,在去噪过程当中实现图像生成。

很多观点认为人工智能是拼接已有作品,但这并不符合生成式人工智能的学习过程。拼接的前提是大量局部复制(少量情况下完整复制),但AI不是为复制而学习,是为了掌握训练数据在技术分析意义上的特征而学习,复制对生成式人工智能在技术上的意义是程序出错。就StableDiffusion模型是否会在生成过程中复制训练数据请教过一位不愿意具名的人工智能图像处理专家,这位专家认为模型学到的都是数学表达,并不会真的把一个图片的某个部分复制到结果里面。

生成式AI的技术机制不需要也不支持抄袭。

AI哪有坏心眼,AI就没心眼。

六、案例分析与借鉴

(一)中国案例分析

1.使用他人作品元素的商业实践

2.使用他人作品元素的侵权案例

(1)《此间的少年》案

金庸在2015年以小说《此间的少年》中使用原告《射雕英雄传》《天龙八部》《笑傲江湖》《神雕侠侣》等作品角色,侵害原告著作权为由,将涉案小说作者杨治(笔名江南)等诉至法院。广州知识产权法院于2023年4月以(2018)粤73民终3169号判决书,认定《此间的少年》和原告作品在故事情节表达、时空背景、故事线索与事件、具体故事场景和内在逻辑等皆不同,但涉案小说多数人物名称、主要人物性格、人物关系与原告作品小说有诸多相似之处,存在抄袭剽窃行为,侵害了涉案作品著作权。

(2)《锦绣未央》案

北京市朝阳区人民法院在(2017)京0105民初62752号等系列判决书中认定,周静在其创作的小说《锦绣未央》中抄袭温瑞安等12名作者的《温柔一刀》《身历六帝宠不衰》等16部小说的语句和情节,侵犯了署名权、复制权和发行权。

西安佳韵社和上海箫明公司之间这场为《我的团长我的团》著作权侵权纠纷开启连续三个审级的诉讼,是解释和适用著作权合理使用制度最经典的案例之一。

西安佳韵社在2020年将上海箫明公司诉至北京市互联网法院,称被告未经许可提供电视剧《我的团长我的团》的在线播放,侵犯了原告对涉案作品享有的独家信息网络传播权。被告上海箫明公司通过自己经营的“飞幕”APP提供“听音识剧”功能,将涉案作品以1分钟为单位剪辑后上传到服务器,APP后台通过语音识别用户播放声音,在和服务器中作品片段匹配后即向用户播放该不超过1分钟的片段。

上海箫明公司抗辩其提供的“听声识剧”服务是向不熟悉影视作品的用户介绍影视作品,在功能和目的上都不是提供在线播放业务。被告为用户提供的涉案作品片段不超过1分钟,占43集作品的比例微乎其微,无法表达出完整的故事情节也不会对涉案作品起到替代作用。

北京市互联网法院一审审理认为,虽然被告在识别并匹配后仅向用户提供每次1分钟的片段,但其行为已构成信息网络传播,侵害了原告权利。

北京市高级人民法院于2022年底在(2022)京民再62号再审判决书中又撤销二审判决,改认定上海箫明公司行为不构成合理使用,只是将向西安佳韵社公司赔偿的经济损失从一审的6万降至1万元。

4.观点总结

综合以上商业实践及案例,可以得出以下几个结论:

(1)碎片化使用他人作品元素,并不必然可以援引合理使用;

(2)大量使用他人作品元素,尤其使用知名角色名称或经典台词、情节等细节,可能构成侵权;

(3)人工智能数据训练能否适用合理使用,关键看AI学习和利用的是他人作品风格、思想、观念、技法,还是直接使用作品元素。

(二)美国案例分析1——安德森等诉StabilityAI等

安德森等诉StabilityAI等人工智能公司侵权的重要性远不止数字上“第一案”的形式意义,而是三位原告以艺术家代表身份为艺术家群体向人工智能企业发起诉讼。这起诉讼体现了艺术社群面对人工智能骤然挑战的焦虑,代表了众多绘画师的不安。本案结果必将对艺术家群体和人工智能产业同时产生重大影响。

原告证据看来没有弥补诉状过于依赖纯理论分析的缺陷。根据最新报道,法官WilliamOrrick在庭审前的听证会已经表示倾向于驳回本案原告的大部分诉请。法庭认为原告应该清楚的区分对不同原告的索赔,尤其应该就其生成式人工智能侵权的主张提供事实证据,否则即使被告的系统已经对50亿张压缩图像进行训练也不能证明这些训练素材包括原告作品。[xxi]

本案进程显然遇到障碍,但还不能说原告必然败诉。一方面原告有补充事实证据的机会,另一方面法庭提到原告之一莎拉·安德森提交了直接侵权证据,她的诉请可以继续得到审理。

(三)美国案例分析2——美国GettyImages诉StabilityAI

尽管如此,Getty诉状包含不少具体依据,对StableDiffusion模型的技术原理也做了不错的陈述。排除部分显然是为了诉讼定制的夸大表述,Getty诉状体现了比较高的专业水平。

Getty案和莎拉·安德森等代表的艺术家群体与AI的诉讼在策略和证据上有不同看点。

1.商标权的主张和证据

Getty诉状中证明被告侵害商标权的图片质量都惨不忍睹,但对这些证据的抗辩攻防会影响整个诉讼的结果。如果被告确实甚至确实故意抄袭原告商标水印,就没有理由相信被告会不抄袭原告图像。

生成式人工智能不需要依靠复制来学习图形,这已经是公认的技术原理。从实际情况分析,AI训练需要天文数字的训练图片,StableDiffusion利用过Getty图片并不令人意外。但是AI如果在经过海量图片训练后仍然把Getty的水印误解为通用图形的必要背景,这就不符合常识。

为解决已经训练过的数据不能满足特定需求的问题,例如由于普遍训练使用欧美和韩国女性图片素材,要精准生成藏族女性图像就要增加专门的训练素材,因此需要开放用户在大模型基础上定向训练专门的图像。StableDiffusion除了提供通用素材训练的技术支持外,也允许用户自行搭建定向训练素材的Lora数据库。

大家应该有印象,一幅出色的StableDiffusion是什么水平。比如人像光影和毛发,AI可以优秀如斯。

(AI生图)

虽然提示词(Prompt)水平直接影响StableDiffusion输出结果,但能差到Getty举证图片的地步,如果不是使用特定素材的Lora定向训练的结果,那就是需要在降低提示词水平上长期训练了。

原告诉状第52段和58段及其举例值得专门分析和回应,但篇幅和内容都已经超过本文范围,留待对生成式AI是抄袭还是原创的专题中讨论。

2.技术贴的论证——StableDiffusion有没有故意侵权

Getty作为原告不可避免在诉状中展开对StableDiffusion的技术分析,力图证明被告存在故意侵权。我个人认为Getty诉状中的技术分析相比莎拉·安德森案诉状,减少了对数学理论的依赖,转而使用比较通用的逻辑和步骤表述,有利于争取法庭理解。

(1)诉状技术贴—生成式训练技术

Getty在诉状第36节阐述了被告StableDiffusion模型数据训练流程和原理:

StabilityAI创建并维护了名为StableDiffusion的模型。据了解,StabilityAI使用以下从输入到输出的步骤:

a.首先,StabilityAI复制了数十亿的文本和图片配对——如可从GettyImages网站获取的那些——并将其加载到计算机内存中以训练模型。

b.其次,StabilityAI对图像进行编码,创建占用较少内存的图像较小版本。另外,StabilityAI也对配对的文本进行编码。StabilityAI保留并存储编码后的图像和文本的副本,作为训练模型的一个重要环节。

c.第三,StabilityAI向编码的图像添加视觉“噪声”,即进一步修改了图像,使得难以辨认出图像所代表的视觉内容。由于图像的视觉质量已经被有意降低,以便于“训练”模型去除“噪声”。通过有意向现有的与文本关联的图像添加视觉噪声,StabilityAI教导模型生成与特定文本描述(例如,“在日落时分海滩上玩耍的狗”)相符的输出图像。

d.第四,模型解码修改的图像,并自学通过比较解码后图像和已经复制和存储的原始图像和文本描述来去除噪声。通过学习解码噪声,模型学会提供——在某些情况下,——和没有噪声的原始图像实质一致的图像。

首先,同样重复一个技术定论,像素不是AI对图形的理解方式,复制行为是被生成式人工智能技术视为需要改正的bug。

其次,d段所称的特殊情况,如果不是程序出错,就是被训练素材独一无二的情况。例如达芬奇的蒙娜丽莎只有一幅,如果让AI生成一幅还原版达芬奇的蒙娜丽莎,AI只能有拒绝或者依葫芦画瓢两个选项。如果是选“帮我画一枝晶莹剔透的牡丹花”(本提示著作权属于百度)或者名动一时的“梅西敬酒图”,AI解决任何有创作空间的需求根本不存在抄袭的可能。

(2)诉状技术贴——想象中的节外生枝

就临时复制而言,因为不需要在输出时复制,生成式AI本身就不需要保留训练素材,而是保留训练结果中每种图片的数学特征。请教一位同样不愿意披露姓名的人工智能专家,他认为StableDiffusion除了数据输入和训练中为学习而有临时复制外,尤其在输出阶段对复制没有任何需求。沟通达成的一致意见是诉状第43节意见是为了让客户满意,而法庭要看的是证据。由于StableDiffusion在2022年底就已开源,可以方便地通过公开源码核实模型的技术实现方式,也为解决这项争议提供更开放的机会。

七、人工智能数据训练的合理使用是一次全球法律的竞争

(一)大人,时代变了

知识产权法教授DanielGervais认为:“如果你给AI看了10部斯蒂芬·金的小说,然后让它写一部斯蒂芬·金风格的小说,那么你就是在直接与斯蒂芬·金竞争。这显然不算是合适使用”[xxiii]。值得回味的是,如果Daniel教授举例中的AI不是智能程序而是人名,结论会正好相反。因为人类学习他人风格而做的表达当然不侵权。

(二)围绕人工智能的法律竞争

要阻滞AI步伐,主动降低技术发展速度实际已不可能。技术像阳光,即使把自家院子全部遮蔽也还会照在别人土地上。

[ii]Article35-2(TemporaryReproductioninCourseofUsingWorks,etc.)Printedarticles--Whereapersonusesworks,etc.onacomputer,heorshemaytemporarilyreproducesuchworks,etc.inthatcomputertotheextentdeemednecessaryforthepurposeofsmoothandefficientinformationprocessing:Provided,thatthisshallnotapplywheretheuseofsuchworks,etc.infringesoncopyright

[iv](1)thepurposeandcharacteroftheuse,includingwhethersuchuseisofacommercialnatureorisfornonprofiteducationalpurposes;(2)thenatureofthecopyrightedwork;(3)theamountandsubstantialityoftheportionusedinrelationtothecopyrightedworkasawhole;and(4)theeffectoftheuseuponthepotentialmarketfororvalueofthecopyrightedwork.Thefactthataworkisunpublishedshallnotitselfbarafindingoffairuseifsuchfindingismadeuponconsiderationofalltheabovefactors."

[vi]TraininggenerativeAIoncopyrightedworksisusuallyfairusebecauseitfallsintothecategoryofnon-expressive.

Courtsaddressingtechnologies,suchasreverseengineering,searchengines,andplagiarismdetectionsoftware,haveheldthatthese“non-expressiveuses”arefairuse.Thesecasesreflectcopyright’sfundamentaldistinctionbetweenprotectableoriginalexpression,andunprotectablefacts,ideas,abstractions,andfunctionalelements.11

WhethertraininganLLMisanon-expressiveusedependsontheoutputsofthemodel.IfanLLMistrainedproperlyandoperatedwithappropriatesafeguards,itsoutputswillnotresembleitsinputsinawaythatwouldtriggercopyrightliability.TrainingsuchanLLMoncopyrightedworkswouldthusbejustifiedunderthefairusedoctrine.

[viii](18)Inadditiontotheirsignificanceinthecontextofscientificresearch,textanddataminingtechniquesarewidelyusedbothbyprivateandpublicentitiestoanalyselargeamountsofdataindifferentareasoflifeandforvariouspurposes,includingforgovernmentservices,complexbusinessdecisionsandthedevelopmentofnewapplicationsortechnologies.……Inordertoprovideformorelegalcertaintyinsuchcasesandtoencourageinnovationalsointheprivatesector,thisDirectiveshouldprovide,undercertainconditions,foranexceptionorlimitationforreproductionsandextractionsofworksorothersubjectmatter,forthepurposesoftextanddatamining,andallowthecopiesmadetoberetainedforaslongasisnecessaryforthosetextanddataminingpurposes.

Thisexceptionorlimitationshouldonlyapplywheretheworkorothersubjectmatterisaccessedlawfullybythebeneficiary,includingwhenithasbeenmadeavailabletothepubliconline,andinsofarastherightholdershavenotreservedinanappropriatemannertherightstomakereproductionsandextractionsfortextanddatamining.Inthecaseofcontentthathasbeenmadepubliclyavailableonline,itshouldonlybeconsideredappropriatetoreservethoserightsbytheuseofmachine-readablemeans,includingmetadataandtermsandconditionsofawebsiteoraservice.

Copiesfortextanddataanalysisfornon-commercialresearch

(1)Themakingofacopyofaworkbyapersonwhohaslawfulaccesstotheworkdoesnotinfringecopyrightintheworkprovidedthat—

(a)thecopyismadeinorderthatapersonwhohaslawfulaccesstotheworkmaycarryoutacomputationalanalysisofanythingrecordedintheworkforthesolepurposeofresearchforanon-commercialpurpose,and

(b)thecopyisaccompaniedbyasufficientacknowledgement(unlessthiswouldbeimpossibleforreasonsofpracticalityorotherwise).

[x],Conclusion

58.TheGovernmenthasdecidedtointroduceanewcopyrightanddatabaserightexceptionwhichallowsTDMforanypurpose.TheGovernmentwillidentifysuitablelegislationtomaketherequiredchangesinduecourse.

59.IntroducinganexceptionwhichappliestocommercialTDMwillbringbenefitstoawiderangeofstakeholdersintheUK.Theseincluderesearchers,AIdevelopers,smallbusinesses,culturalheritageinstitutions,journalists,andengagedcitizens.Targetedproductsandserviceswillbenefitbusinessesandcustomers.Researchoutcomescouldalsobenefitthewiderpublic.Thiscouldbe,forexample,bysupportingresearchandinnovationinpublichealth.SomeinthecreativeindustriesalsouseTDMandAItounderstandtheirmarketorcreatenewworks–theywillalsoseebenefits.Thebenefitswillbereducingthetimeneededtoobtainpermissionfrommultiplerightsholdersandnolicensefeetopay.ThiswillspeeduptheTDMprocessanddevelopmentofAI.

[xi]《日本2018年著作权法修正权利限制规定概要》高嘉鸿108.5智慧财产权月刊VOL.245

THE END
1.etflix出品的5部电视剧,每部都足够碾压《斯巴达克斯》你发现那些曾经认为无关紧要的台词都像是蝴蝶效应一般,一语成谶影响全局;那些像教科书一般的构图,光线明暗,小聚焦大广角,音响效果,视听语言,镜头叙事,每一个镜头都像是手艺人精致打造的艺术品,还有就是剧中人物都那么立体那么鲜活等等,正是这部电视剧伟大的原因所在。所以总的来说,《风律师》在所有美剧里绝对是http://www.cnyunfu.com/wenyupindao/158076.html
2.金装律师:洛杉矶什么时候上映有多少集热播电视剧 七夜雪 上映:2024/10/09 大梦归离 上映:2024/10/26 宿敌 上映:2024/11/07 好团圆 上映:2024/10/26 锦绣安宁 上映:2024/10/10 失笑 上映:2024/11/08 巾帼枭雄之悬崖 上映:2024/10/21 永夜星河 上映:2024/11/01 白夜破晓 上映:2024/11/20 珠帘玉幕 上映:2024/11/01 小巷http://www.manmankan.com/dy2013/202411/28187.shtml
3.《法律与秩序第二十一季》欧美剧手机免费在线观看资讯,而且没有在电视上播出。 3、问:欧美剧《法律与秩序第二十一季》 演员表 答: 法律与秩序第二十一季是由迪克·沃尔夫,瑞克·伊德执导,萨姆·沃特森,休·丹西,杰弗里·多诺万,安东尼·安德森,卡穆琳·曼海姆,奥德娅·哈尔维,Marcel Simoneau,弗兰克·安妮罗,Iván Amaro Bullón,Francis Mancho,Ryan O'Dell,http://www.ksyunfu.com/videos/32990.html
4.《法律与秩序(英版)第四季》全集在线观看电视剧电视剧《法律与秩序(英版)第四季》(英文片名:falvyuzhixuyingbandisiji)这部电视剧是由导演安迪·戈达德,吉米·巴姆博,弗莉玛·阿吉曼,哈丽特·瓦尔特,本·丹尼尔斯,布莱德利·沃尔什.等众明星主演,2011英国上映的电视剧。零零七影视提供电视剧法律与秩序(英版)第四季在线观看完整版视频,云播地址:https://www.xwxhttps://www.xwxyp.com/oumeiju/falvyuzhixuyingbandisiji/
5.美剧《波士顿法律第五季》全13集[中文字幕]迅雷下载高清电视剧ABC电视台的《波士顿法律》一直是艾美奖金球奖的常客,自 2004年10月以《The Practice》的衍生剧身份开始播出以来,已经上演了异彩纷呈的四季。2008年9月22日,我们将迎来很有可能是最后一季的Boston Legal。 凭借《The Practice》和《Boston Legal》三获艾美奖的James Spader与两获艾美奖的老戏骨William Shatner组成http://www.zhtv.net/50s35279p0.html
6.英国最经典十大律政剧英剧中好看的律政剧英国法律题材电视剧大家熟悉的法律题材电视剧一般都着重于案情,体现律师的能力的强大,但深入律师行业就会发现并没有这么简单,英国法律题材电视剧就总是把真相拿给大家看,英剧中好看的律政剧体现的也更多的是人性,maigoo小编就为大家带来了英国最经典十大律政剧,如近年来火爆的皇家律师、https://m.maigoo.com/top/412874.html
7.失业的查理辛依旧是电视剧片酬最高的明星娱乐资讯双语阅读失业的查理辛依旧是电视剧片酬最高的明星 尽管被开除出CBS史上评价最高的电视情景喜剧《好汉两个半》,但查理辛依旧光环笼罩。他的薪水据估计大约在 4000万,这使他成为小银幕上片酬最高的明星,这些数据均来自《福布斯》杂志在2010年5月到2011年5月这1年间对电视演员的薪酬统计,而查理在2011年3月才被炒鱿鱼,这也https://www.kekenet.com/read/201110/157697_2.shtml
8.有趣的知识竞赛试题89、电视剧《大明宫词》中,谁扮演了少年时代太平公主? ——答案:周迅 90、香港女艺人应采儿的丈夫,饰演过《鹿鼎记》中韦小宝角色的香港男演员是? ——答案:陈小春 91、看鱼鳞能识鱼龄,鱼鳞上的一圈是表示? ——答案:半岁 92、有蝴蝶8只,蜻蜓比蝴蝶多4只。那么蝴蝶和蜻蜓一共有多少只? https://www.ruiwen.com/shiti/1487638.html
9.上海市哲学社会科学规划办公室20、电视产业规制与中国电视剧产业竞争力的国际比较研究 朱春阳 复旦大学 21、能源利用中的碳脉分析与减排政策研究 潘克西 复旦大学 22、文化象征研究 居伟忠 华东理工大学 23、稀有矿产资源战略储备立法研究 张 平 华东理工大学 24、与经济、社会和文化权利相关的国际法实施机制研究 http://www.sh-popss.gov.cn/newsDetails.asp?idval=125
10.美国法学会评出的史上25部最佳法律电视剧剧目(百度搜索即可看美国法学会评出的史上25部最佳法律电视剧剧目(百度搜索即可看) 电视总是钟爱律师。从佩里?梅森(Perry Mason)到利兰?麦肯齐(Leland McKenzie),从杰克?麦考伊(Jack McCoy)到帕蒂?赫韦斯(Patty Hewes),律师总是小荧幕上最盛行不衰的角色。但是律师们认为史上最好的法律电视剧都是哪些呢?我们将这个问题交给了12名专https://max.book118.com/html/2018/1023/8120016003001130.shtm
11.(英国法律题材电视剧)英国最经典十大律政剧英剧中好看的律政剧大家熟悉的法律题材电视剧一般都着重于案情,体现律师的能力的强大,但深入律师行业就会发现并没有这么简单,英国法律题材电视剧就总是把真相拿给大家看,英剧中好看的律政剧体现的也更多的是人性,小编就为大家带来了英国最经典十大律政剧,如近年来火爆的皇家律师、让人脊背发凉的脱罪大师等等,你最爱的英国律政剧在不http://www.zhuoyunkang.com/news/show-55107.html
12.舞台剧和电视剧创建并使不同的法律课程的中文翻译英文意思1、 舞台剧和电视剧创建并使不同的法律课程的 翻译结果4复制译文编辑译文朗读译文返回顶部 1.舞台剧和电视剧创造和使不同的法律课程 翻译结果5复制译文编辑译文朗读译文返回顶部 1.Stage戏曲和电视戏曲创造并且制定路线的不同的法律 相关内容 a正是这公园里他丢了他的表 Was precisely in this park he has losthttp://eyu.zaixian-fanyi.com/fan_yi_5276973
13.TVB时装法律剧《法网狙击》翡翠台首播电视剧频道《法网狙击》(英文:Friendly Fire),香港电视广播有限公司时装法律电视剧,由谢天华、杨怡、森美及陈敏之领衔主演,监制文伟鸿。 情侣分手 形同水火 甘祖赞(谢天华饰)是一名能干的大律师,在法律界颇有名气,他外表不羁,其实用情专一。祖赞有一个兄弟波地(森美饰),是一名英勇冲动的重案组CID,乐于助人,两人情同手足。 https://www.yule.hk/tv/244.html
14.《法律与秩序组织犯罪第二季》全集在线观看电视剧法律与秩序组织犯罪第二季由克里斯托弗·米洛尼,Danielle,Moné,Truitt,塔玛拉·泰勒,Ainsley,Seiger,迪伦·麦克德莫特,玛莉丝卡·哈吉塔倾情出演,豆瓣评分8.0 分,在美国火热播出,影片英文名:falvyuzhixuzuzhifanzuidierji ,电视剧法律与秩序组织犯罪第二季剧情讲述了《法律与秩序:组织犯罪》是《法律与秩序:特殊http://www.gyxlgs.com/oumeiju/falvyuzhixuzuzhifanzuidierji/
15.2024年电视剧未来发展趋势提示:如需英文版、日文版等其他语言版本,请向客服咨询。字体:小 中 大报告内容: 电视剧产业在全球范围内呈现出多元化和高质量的趋势。随着流媒体平台的兴起,如Netflix、Hulu、Amazon Prime Video等,电视剧的制作和分发模式发生了根本性的变革。这些平台不仅打破了传统电视节目的播放周期,还催生了大量原创内容,提高https://www.cir.cn/R_QiTaHangYe/99/DianShiJuWeiLaiFaZhanQuShi.html
16.《法律至上第一季》完整版全集免费在线观看电视剧电视剧法律至上 第一季由堺雅人,新垣结衣,生濑胜久,小池荣子,里见浩太朗,矢野圣人,田口淳之介,中村苍,正名仆倾情出演,豆瓣评分4.0 分,在日本火热播出,影片英文名:falvzhishangdiyiji ,电视剧法律至上 第一季剧情讲述了三木律师事务所的菜鸟黛真知子(新垣结衣 饰)为了帮一起谋杀案的当事人洗刷清白,在社长http://www.lzcxqxbj.com/ccdetail/67041.html
17.《法律之心重建生命的律师》全集高清完整版在线观看电视剧法律之心重建生命的律师由反町隆史,小池荣子,堀井新太,和久井映见,桥爪功,松本留美,水泽林太郎,田畑志真,石黑贤,高桥瞳,高岛政宏,矢田亚希子倾情出演,豆瓣评分9.0 分,在日本火热播出,影片英文名:falvzhixinzhongjianshengmingdelvshi ,电视剧法律之心重建生命的律师剧情讲述了在濒临倒闭公司的重建现场http://www.szdiyue.com/ribenju/falvzhixinzhongjianshengmingdelvshi/
18.1990美国剧情犯罪悬疑警匪电视剧[英语对白英文字幕]《法律与秩序第一季》由看片网为您提供了西瓜云播、mp4视频、影片下载、高清下载观看,欧美剧法律与秩序第一季是由乔治·迪朱恩扎,克里斯·诺斯,鲁伊·金纳斯,迈克尔·莫里亚蒂等主演John·Beymer,William·Klayer执导的一部美国地区1990年上映的剧情 犯罪 悬疑 警匪 欧美电视剧。 《法律与秩序》分为警匪较量和法庭辩论https://www.kp8000.com/MeiJu/falvyuzhixudiyiji/
19.springboot基于Java的数据分析电视剧推荐系统综上所述,基于Java的数据分析电视剧推荐系统的研究不仅对提升用户体验、推动行业发展有着重要作用,同时也促进了科学技术的创新与交叉融合,是当今社会技术进步和文化产业发展中不可忽视的重要力量。 1.2 国内外研究现状 在中国,随着互联网技术和大数据技术的迅猛发展,基于Java的数据分析电视剧推荐系统受到了广泛的关注和研https://blog.csdn.net/m0_73268882/article/details/140305155
20.法律与秩序:特殊受害者第二十四季第03集电视剧在线观看电视剧法律与秩序:特殊受害者第二十四季由玛莉丝卡·哈吉塔,凯莉·吉蒂什,艾斯-T,彼得·斯卡纳维诺,Octavio,Pisano,克里斯托弗·米洛尼,Danielle,Moné,Truitt,Ainsley,Seiger,杰弗里·多诺万倾情出演,豆瓣评分3.0 分,在美国火热播出,影片英文名:falvyuzhixuteshushouhaizhediershisiji1 ,电视剧法律与秩序:特殊受害者http://v.zdxtd.com/play/63755-1-3.html
21.宣传栏制作合同书(通用12篇)在清晰地确定到电视剧的看点和亮点后, 接下来需要做的就是提炼出精辟恰当的宣传词。在进行宣传词撰写时也有许多需要避免的问题和环节。在撰写宣传词时要抓住重点, 由点及面, 从细节处着手。例如《木府风云》讲述了明代云南纳西木氏土司在当地统治时期, 木氏家族内部腥风血雨的争权夺势和权力更迭的恩怨情仇。因此在https://www.360wenmi.com/f/filee6lfui87.html
22.暴风科技:华泰联合证券有限责任公司中国国际金融股份有限公司前受到国家有关法律、法规及政策的严格监督、管理。行业监管主要体现为许可 制度和内容管理制度。 《广播电视节目制作经营管理规定》规定:“国家对设立广播电视节目制作 经营机构或从事广播电视节目制作经营活动实行许可制度”;《电视剧内容管理规 34 北京暴风科技股份有限公司 关于暴风科技发行股份及支付现金购买资产并募集https://stock.stockstar.com/notice/JC2016031400003251_93.shtml
23.啃老范文12篇(全文)电视剧创作其实也是一种社会行为, 而文艺创作又不同于一般的社会行为, “作家、艺术家的文艺创作活动是在一定社会审美意识支配下进行艺术形象创造的特殊的社会实践活动。”电视剧“啃老”现象并非是电视剧创作的倒退, 在一定程度上也表现出时代的进步, 但是一定要注意方法, 才能使经典电视剧拥有不竭的生命力。https://www.99xueshu.com/w/ikeyvrlmcfo0.html
24.《百余部美剧排名》嵇坔之84824^第1章^最新更新:202202央台给michael配的音实在是太有爱了,导致我后来再看英文原版的时候对michael的声音都有几分不爽。 如果说老友记的亮点是友谊,这部剧的亮点就是亲情,不过拍到后来Ben长大后质量还是有些滑坡,推荐大家反复观看前几季。 3、《Everybody hates Chris》人人都恨克里斯 (二星;五角) 闹剧荒的时候找来看的,开始以为只是https://www.jjwxc.net/onebook.php?novelid=3173899
25.搜狗搜索引擎搜狗搜索是全球第三代互动式搜索引擎,支持微信公众号和文章搜索、知乎搜索、英文搜索及翻译等,通过自主研发的人工智能算法为用户提供专业、精准、便捷的搜索服务。http://sogou.com/