二、提示词对AI文生内容有独创性贡献
(一)AI模型生成内容的独创性
(三)提示词对AI生成结果的独创性贡献实证
三、工具与控制论:从经典到幻觉
(二)指南的矛盾、幻觉与崩溃
(三)从单纯工具到人机双打
四、告别人类中心主义
(一)偏见与傲慢
(二)创能力在技术角度的简述
AI文生视频第一案开播
本案预告片绘制历经提示词优化、概念图生成到图转视频的多个环节,每个阶段需要使用不同AI工具接力绘制。原告描述在视频生成阶段使用PixVerse工具,这是一个提供包括图生视频及文生视频功能在内的多模态输入AI。各方报道都表述本案为首起文生视频纠纷,应该是在使用PixVerse生成视频的环节同时利用了前道工序生成的图片视频化,至少两道工序涉及使用文生内容。
3、原告针对法理依据上的障碍,证据组织和理由论述是否有效。本题答案依然选R。
排除视听作品形成过程所需的剧本、脚本等后台内容,只以动画视频最终呈现形态而论,也是集成音乐、台词、配音、美术等多个独立单元/作品有机组合的整体作品。整体作品可以和作为集合作品构成元素的独立作品相互分离。即使不论本案涉及动画预告片整体是否构成作品,被告全盘照搬预告片独创的文案、配音、音乐,就足以认定对上述单元构成侵权。
先不考虑本文稍后会集中分析的AI参与生成内容独创性问题,预告片作为整体作品,保持其主线及具体情节不变而对作为作品外观的美术部分进行针对性修改,也类似游戏侵权中的换皮抄袭。
参考《山海奇镜》案原告在诉讼和采访中的表述以及截图证据,和游戏换皮侵权可能被适用反不正当竞争法规制相比,本案被告直接抄袭预告片文案等基本元素并针对视觉表达逐帧进行模仿性替换,都适合径直认定侵害改编权。
1、创意设立阶段流程图:通过专属AIagent将创意和灵感转化成视频脚本
2、文生图示意图,配合使用Midjourney和DallE3生成概念图,反写出更专业的prompt后再使用Midjourney生成优化后的图片
3、图生视频示意图,通过视频生成工具PixVerse将图片转化为高清视频
4、剪辑阶段,基本通过人工完成视频的配音和剪辑
原告在媒体采访中反复强调“AI只是一个工具,前期和后期依旧依赖大量人工”,主张“即便AI工具提高了效率,但背后依旧是以人为主导进行的操作”。原告表述显然是主动规避对AI模型生成内容独创性的争议,将创作的重心固定在受人类作者控制的流程中。
原告有针对性的组织证据材料和主张,绕开理论争议的陷阱,有助于案件审理集中在人类作者对视频生成结果做出创造性贡献的事实中,为赢得裁判支持做了不错的铺垫。就本案个案而言,我认为法院有充分事实和法理依据支持原告对认定被告侵权的诉请。
提示词对AI文生内容有独创性贡献
裁定同样并未以申请人使用提示词控制AI为由直接驳回登记申请。裁定披露驳回申请的理由是:“尽管申请人Allen主张其输入至少624个文本提示并进行了大量修改才得到最终获奖的申请登记作品,但因申请人以“具体提示和输入是秘密”为由拒绝披露任何具体提示,使委员会无法评估申请人提示本身是否具有足够的创造性”(”Mr.Allendeclinedtodiscloseanyspecificpromptonthegroundsthat“specificstringofpromptsandinputsareconfidential.”......NorcouldtheBoardconsiderwhetherthepromptsthemselvesweresufficientlycreativetobeindependentlyprotectedbycopyrightsinceMr.Allenhasnotdisclosedthem”)[5]。
很多中国学者认为人类用户通过在生成式AI输入提示词方式生成内容不属于创作,《登记指南》也认为纯粹使用提示词的方式不能证明人类对生成内容有创造性控制。鉴于安排在本文后半部分阶梯展开对控制理论的分析,此处只总结USCO和大多数中国学者都认为单纯提示词对AI生成内容不具有创造性影响,而这和北京知识产权法院在文生图首案判决中的观点有差异。在这个问题上我则是完全认同法院在判决的分析。
我在《妥协是渐进的艺术》一文中已经对从文化史、案例访谈和实证角度对提示词在AI生成内容中的独创性,即文字向美术等内容形式转化中的互通关系做了详细论证。本文从艺术创作规律和美术实践等角度做部分补充。
1、艺术创作规律
文字作品和美术作品之间的审美和独创性不能互相转化是很早就有的观点。不但有人认为文字的独创性不能和美术作品通约,也有主张美术作品无法用文字进行表达,而这些观点本质上都只是被作品物理形态固化的感官偏见。对想象力和理解力的自我阉割成为这种错觉的代价。
美学家阿恩海姆针对视觉和语言不能互相描述的观点有专门反驳:
“在这种种的偏见中,有一种声称说,视觉事物是决然不能通过语言描述出来的......当然,语言并不是我们的感觉同现实接触的通路--它仅仅是给那些看到、听到成想到的事物赋以名称。但对于描述和解释视觉对象来说,语言却并不是一个生疏的或不合适的媒介......我们的视觉分析系统还能够进一步地得到发展,并且还可以唤起能够“透视”事物的那些潜在能力。而这些潜在能力的发挥,又能帮助我们弄清那些不能够分析的事物的本质”[8]。
2、AI美术实践和专业方评价
在我对游戏行业的访谈中,动画师和技术美术师(AI专家)对提示词水平与大模型生成结果之间的关系都给出手眼一致的观点,要求越专业越复杂的AI美术对提示词的水平就要求越严,模型输出内容和画师能力必然是线性关系。北京邮电大学人机交互与认知实验室主任/博导刘伟评价大模型绘画工具时也认为“这些软件(大模型)都有一个共同特点,就是“欺软怕硬”——你的水平越高,它给你的东西越好;你的水平越低,它就泛泛而谈”[9]。
中信出版集团在出版商务周报的一篇报道中介绍了使用大模型为一套屡获大奖的引进版经典科幻丛书(“血与锈”)进行翻译和生图的具体操作[10]。设计师首先从插图入手,“......我们根据(图书)文本先提取关键场景,总结画面场景、主体、视角等提示词,利用StableDiffusion工具,再根据生成的画面风格进行调试”。最终定稿如下图:
设计师在书封绘制中,“.....以《海洋之神》的书封为例,根据文本关键词先生成基础底图,再通过调整画面色调、主体位置和利用AI图片扩展功能,一键生成了书封全景图,最后排版完稿”。定稿这张乌云密布的海上幻境见下图:
AI文生内容正在迅速改变全球媒体制作的流程和基准。尽管影像艺术作为人类创造力的一座巅峰必然需要相对缓慢的过程被技术所逐步改变,但无可否认AI已经以各种方式渗透在概念、角色设计、建模、贴图与纹理、特效、UI/UX、渲染等绝大部分美术生成环节。
AI创作高发必然伴随侵权增长,从《山海奇镜》预告片的侵权诉讼到前不久360发布会使用第三方AI生成图片做公开演示的纠纷
大模型文生内容侵权纠纷数量以显见的速度攀升。当AI成为内容规模化生成的标配工具而学术界还在努力论证文生内容不受著作权保护,历史性谬误将对整个内容产业的正常进化产生负面影响。
工具与控制论:从经典到幻觉
否认人类提示词可以对AI生成内容具有独创性贡献,不但使人类自己面临应有权利得不到承认的风险,而且使USCO创造出与独创性等义的所谓”作者传统身份“来分析AI独创能力。结果《登记指南》如同盗梦空间,不同表述撕裂在不同的梦境空间。
工具是可以区分类型的。比如在弹钢琴过程中,钢琴师的白手套不发生任何变化,这是最初级的工具;钢琴根据预制的设计,对不同琴键和节奏的弹奏做出不同反馈,这是纯机械但可以表现出一定变化的进阶版工具;文生内容过程中的AI模型和钢琴与键盘之类工具又有所不同,模型对提示词具有积极和能动的反馈。至少对发展到GPT4时代的大模型,已经是具有相当思考判断能力的主动型工具,这是人类前所未见的。
人类用户使用大模型进行文生内容,从提供提示词到AI的理解与展现,人和机器共同影响和决定最终生成内容。在提示词具有充分独创性的条件下,文生内容作品同时包含人类和AI各自的独创性,形同人机混合的双打。在形成人机混合双打的场景下,无论使用人还是AI都不是单方决定生成内容的原创性。在文生内容场景下如果还要求人类使用者对最终生成内容有完全控制或预见(即对内容的单方决定权),本身就违背人机双打的基本事实。
USCO绕着弯承认AI具有独创能力但并没有意识到AI文生内容过程实际是一场人机混合双打,错误低估了提示词对最终生成内容的独创性贡献。不幸的是USCO的这个错误在中国得到相当支持和发扬,以致学界倾向于全面否定AI具有独创能力这个客观事实。
告别人类中心主义
人工智能发展到大语言模型阶段,发展曲线越来越接近挑战人类在智慧阶梯中独一的高位。人类一方面在技术上加快发展AI,一方面在制度上防止AI和人类过于靠近。在不少对人工智能低估和片面的分析中,本身就隐含了为人类保卫龙脉的潜意识。
既往全部历史都在证明人类是最高灵性和唯一能创造复杂工具动物,于是人类本能产生出人类作为万物灵长的固化直觉。人类中心主义的自我神话越来越坚固。抛开宗教化塑造释人类中心主义,如果我们把所有主义都当成科学,那么在卡尔波普的科技史观中证伪是比证实更重要的科学工具。既往对人类中心主义再多的证实也可以被哪怕一次可确认的事实推翻。
1.人工智能的法律主体地位
AI法律地位的成文法和判例依据不难检索,我认可通说。但问题到此并未结束,这里有两关键心问题很少被提及和展开:
关于第一个问题,人工智能是否有独创能力是客观事实,而人工智能能否取得主体资格是法律事实。两个事实的判断互相影响但各自独立。
关于第二个问题,人工智能能否取得主体资格不是纯粹逻辑判断的理论问题,更重要的是利益判断的法政策问题。逻辑判断属于应然,而政策影响下的立法是实然。
就第二个问题推进一步,法政策可以为价值观左右,也为实际利益所定制,但和事实或趋势相违的法政策终将改变。贤如美国联邦最高法院,1857年在斯科特诉桑福德案(DredScottv.Sandford)判决中也裁定黑人不能拥有美国公民身份且无权在联邦法院提起诉讼。随即而来的南北战争为历史迅速翻过这一页。1908年颁布的大清《钦定宪法大纲》总纲第二条规定大清皇帝统治大清帝国万世一系永永尊戴,后面发生的事情人类都知道。
刚才是站在逻辑和应然的角度分析,下面我们站在人类而非纯技术的角度思考法律制度的建构与进化。人工智能是否具有独创能力的证明放在下文继续讨论,为分析方便此处先假定(虽然我个人确实如此认为)人工智能实际具有独创能力,那么我们是否要为人工智能建立专门的法律主体地位呢?
当下法律制度不具备容纳人类以外的独立主体,贸然改动法律底层结构的这一个受力点就可能动摇用几千年建构的法律大厦地基。在人工智能法律建构的观点上,如果保守是对手,那么激进可能是敌人。保守的错误还有机会治疗,激进的代价可能更加巨大。人工智能法律主体地位的研究需要积极探索谨慎建构,在理性中保持自然演进。
2.自由意志条件是对独创性判断的加戏
之所以会有对AI独创能力的种种错误观点,一个相当重要的原因是在潜意识中修改判断条件,尤其是在自己可能都没有意识到的情况下悄然加戏。
一种广为流传的否认AI具有独创能力的观点是生成式大模型还不具备自由意志,因此没有独创能力也不是法律主体。如前文所述,我认为是否具有独创能力和是否成为法律主体分别是客观事实判断以及法政策制定的不同问题,对实然和应然问题不做区分无法导致正确结论。
生成式技术发展对认知科学带来的挑战要比对语言科学的挑战大的多。生成式大模型在结构上也依赖仿脑神经的多种神经网络,但和人类大脑遵循以符号定义和逻辑为核心的符号主义下形成认知,而大模型的自学习路径纯粹依靠数学。在智力生成过程上,人类从诞生开始沿着产生自我意识->积累知识->形成思维能力的结构,而人工智能的智力生成是沿着知识->能力(如推理)->意识的过程。
换言之对人类而言意识是先天本能,思维能力是智慧形成的最高一阶。对人工智能而言思维能力通过预训练中的涌现就可以主动形成,但意识却是AI技术发展要克服的最后一座巅峰。意识和智慧是两个不同的问题。人工智能独创能力判断和思维能力(智慧)形成阶段有关,但独创能力和意识产生在法律和事实上都无关系。
3.放弃单方宣布的胜利
为了证明人工智能没有思维能力和独创性,很多智者发掘了多姿多彩的理由,但事实上人类连自己的思维能力如何产生也并不清楚,在这样前提下就断言人工智能使用数学方式不能产生思维能力有违逻辑。
丹尼尔.丹尼特在《自由的进化》中通过对包括著名的BenjaminLibet实验所做深入浅出的辨析,证明即使是最基础的自由意志其实充满争议,对人类意志涉及的复杂心理和生物过程现有研究并不能给出明确的答案;丹尼尔·利伯曼在名著《贪婪的多巴胺》中非常有说服力的阐述了属于生理范畴的内分泌对属于心理范畴的欲望、动机、创造力和决策的关键作用;道金斯在多个科学领域都堪称殿堂级的《自私的基因》则把基因操控的遗传冲动作为影响思考和行为的底层动因,这似乎是跨时代和跨学科的回应叔本华的本能意志观点。
动漫大师宫崎骏对人工智能绘画的批评曾一度成为主张AI只会拼凑和生成内容低劣的有力证据。宫崎骏确实在看过AI动画短片演示后表示对动画深感沮丧,认为AI缺乏对生命和情感的尊重也无法取代人类的创造力。但这个故事原出2016年11月播出的纪录片《宫崎骏--永不停歇的人》,2016年的图像AI和当下领先技术如Sora相比存在从前膛枪到海玛斯的技术落差,拿来做判断依据不错才是不可能的。
《三体》有句名言说:弱小和无知从来都不是生存的障碍,傲慢才是。人类中心主义的硬伤并不在逻辑而恰好在傲慢。
库克(TimCook)2017年在参加麻省理工学院毕业典礼演讲时曾说不担心机器越来越像人,更担心人越来越像机器。尽管这句金句实际是呼吁人类不能只考虑实现目标而要更多考虑价值观以及行为后果,但AI法律制度研究中出现的很多过分保守和机械的观念,倒在从一个未曾意料的角度证明库克的担忧。
技术圈固然也有”随机鹦鹉“的支持者,但像YannLeCun和马勇这样顶尖的深度学习专家批评生成式技术却总是明显出于同行相煎。两位大师不论给什么样的理由,最后都会落到只有我家正在研究的技术才能为AI建构世界模型,或者所有支持严格监管AI的人都是企图垄断技术这样阴谋论的放飞。
一个更简单的研究方法是直接和人工智能对话来进行测试。当然基于不同AI之间巨大的水平差异,只推荐和GPT-4及其以上版本实验。以下提供两张对其创造能力的问答截图。
深度学习之父Hinton对大模型智能生成原理、现有AI进行创造性思考的实际能力以及未来发展趋势公开做过多次详细论述,有案例有解释,建议有兴趣可以检索。
截图请忽略右上角提问时输错的“毕竟”(原意为背景),但这也正好证明大模型具有出色的容错与猜测能力。
事实上GPT给出的这个答案在故事与图片的关联性、想象力、情节性甚至主题深度上都远远超过我对结果的预期,足以终结对人工智能独创能力的种种质疑。
注释:
[1]参见周小燕:《他用AI,抄袭了我的AI作品》,
[5]同上,见裁定注释第8点
[7]KATEKNIBBS,,
[8][美]鲁道夫·阿恩海姆著滕守尧朱疆源译:《艺术与视知觉》,四川人民出版社1998年3月第1版,引言2-3页
[9]周雯等:《生成式人工智能与电影》,转载自《当代电影杂志》,
[12]伽马数据:《新质生产力报告:七成游戏企业技术投入显著增加AI应用率99%》,
[13]亦思新音乐产业观察:《反制AI,音乐圈行动起来了》,