OpenAI官方发布的文生视频模型Sora,可快速生成最多长达60秒的相应视频内容,重新定义了AI生成视频的技术突破。在此之前,一些模型已实现了功能的持续迭代,并初步实现商业化,例如Pika1.0免费对公众开放,Gen-2模型采用套餐包订阅收费模式,中国大陆的年套餐订阅价格为998元。
作者:朱珺(华泰证券研究所传媒行业首席分析师)吴珺(华泰证券研究所传媒行业分析师)
2024年2月16日凌晨,OpenAI官方发布了文生视频模型Sora。该模型最长可以生成长达一分钟的高清视频,重新定义了AI生成视频的技术突破。Sora模型将自然语言处理技术与视频生成技术相结合,使用大量带有相应文本字幕的视频进行训练。用户仅需通过输入文字描述,Sora即可快速生成最多长达60秒的相应视频内容。
Sora具备生成包括多个角色、特定类型的运动、准确细节的主体和复杂场景的能力,还能够创建多个镜头,模拟复杂的摄像机运镜效果,使生成的视频更加生动。此外,由于OpenAI将扩散模型与大语言模型(LLM)相结合,使Sora具备理解和模拟真实世界的能力,所生成的视频中已经可以展现空间以及空间内物体之间的真实物理关系。除了文生视频功能外,Sora还具备图生视频、视频扩展、视频拼接、视频编辑、图像生成等功能。
01
Sora有何优势?
在视频质量方面,Sora较Pika、Runway具有显著优势。相较于这些之前的AI文生视频工具,Sora可以通过多镜头等方式生成更加复杂的视频,在时长、流畅度以及逻辑性方面表现出显著的优势。OpenAI认为,视频生成模型是构建通用物理世界模拟器的一条有前景的道路,它使人工智能理解和模拟运动中的物理世界,迈向了一个新的高度。Sora的发布也意味着通用人工智能(AGI)时代有望加速到来,是AGI实现过程中的重大里程碑事件。与其他AI文生视频模型相比,Sora有四大优势。
图表1:Sora与其他AI文生视频模型性能对比
一是视频时长及镜头切换的突破。其他头部AI文生视频工具尚且无法完成镜头切换后的衔接,因此作品往往局限于10秒内的单一镜头视频。而Sora不仅可以实现不同镜头间流畅切换,还能生成60秒超长视频。
二是视频尺寸自由。基于OpenAI公布的Sora技术报告,Sora模型可以生成1920x1080与1080x1920之间所有尺寸的视频。而例如RunwayGen2仅支持特定长宽比的视频。
三是背景角色稳定。过往的AI文生视频工具通常会出现背景角色不稳定的情况,即在背景中有许多物体时,画面经常失真、混乱。以“东京漫步的女士”视频为例,在Runway中输入同样的提示词后,背景人物会做出一些怪异的走路姿势,而Sora视频中背景角色表现非常稳定。
四是与真实世界一致。由于Sora初步具备理解和模拟真实世界的能力,生成的视频通常具备一些新兴特征,包括3D一致性、物体持久性、模拟物理交互等。
图表2:Sora生成的视频中人物在切换镜头后仍保持一致性
在技术方面,Sora实现了数据处理及底层模型的全面革新。
02
文生视频大模型进化迭代,2024年迎AI视频年
回顾文生视频的发展史,2023年有多款产品落地,2024年加速迈进AI视频新时代。
2023年是文生视频模型的开启之年。在2023年以前,市面上尚不存在公开的文本生成视频模型。仅2023一年实际诞生的模型就达数十个,全球用户数量超过百万级别。目前市场上有21个重要AI视频模型已投入使用并取得一定进展。
2024年,各大公司加快了文生视频模型的研发步伐,有望迎来AI视频年。1月2日,以文生图工具闻名的Midjourney宣布将在未来几个月加快训练文生视频模型。1月23日,谷歌公司推出了文生视频模型Lumiere,可以直接生成全帧率、低分辨率的视频,具有多个时空尺度。Runway的文生视频模型Gen-2在2023年年末也完成了一次重要的功能更新,实现了产出视频质量的大幅跃升。字节跳动和腾讯也分别于2024年1月上旬和下旬公布了视频模型MagicVideoV2与VideoCrafter2。马斯克称2024年将是AI电影元年,AI视频生成产业将加速。
Sora模型目前暂未对公众完全开放,仅提供给部分内测用户使用。考虑到多重风险,OpenAI表示暂无计划向公众开放使用Sora模型,但目前已向部分专家开放以评估潜在风险,也正向部分设计师、电影制作人、视觉艺术家等授予访问权限以获得反馈。我们可以期待在时机成熟后,Sora模型将对全行业掀起新一轮革命。
当前具有代表性的文生视频模型,均实现了功能的持续迭代,并初步实现商业化。包括文生视频Pika1.0模型、文生视频Gen-2模型,及文本生成动画工具包StableAnimationSDK等。
文生视频Pika1.0模型由团队PikaLabs于2023年年底开放免费公测,支持3D动画、动漫或电影等各种类型内容生成。Pika官网给出的功能介绍包含生成和编辑两个部分。生成功能支持输入文本、图像、视频生成或拓展视频。而此次发布更亮点的功能在于Pika1.0的编辑部分。目前,Pika1.0免费对公众开放。
文生视频Gen-2模型由Runway最早于2023年3月发布,目前已能生成4k分辨率的长达18秒视频。Runway官网给出八种不同的视频生成方式,包括文、图像、文字图像结合生成视频的三种基础功能。结合由Runway开发的Motionbrush功能,用户可以选定图像中的特定区域确定其运动方式。Gen-2模型发布于公司官网、AppStore和Discord机器人,采用套餐包订阅收费模式,中国大陆的年套餐订阅价格为998元。
03
Sora将如何改变传媒各细分赛道?
影视方面,Sora或可以降低传统影视制作门槛,IP类资产有望价值放大。
对于专业影视内容制作公司来说,短期Sora仍将作为工具性产品,助力生产效率提升和成本降低。中长期随着视频内容制作门槛的降低,生产者供给的竞争格局还有待进一步观察,未来更注重故事和创意。预计拥有核心导演及IP资源的公司更受益。Sora的出现或将重塑影视行业,机会与挑战并存,预计影视制作公司将出现分化:一方面,影视作品的“灵魂”来自于创意及情感,Sora作为优秀的生成工具将助力优质的想法和故事落地,文本创作力及导演能力等将成为核心竞争力。拥有核心导演编剧及创意资源的公司竞争力有望提升,低端代工制作公司面临压力。另一方面,新的IP及内容将海量涌现,经典IP有望借助Sora加速生成影视化作品及衍生内容,持续扩大影响力。
游戏方面,Sora可以模拟生成游戏视频,降低生产成本。
Sora可被应用于游戏角色创立,场景开发等过程。游戏是虚拟世界的一种体现,Sora对于物理世界的理解和模拟可以与游戏场景开发高度适配,可以帮助游戏开发者创立角色或背景故事。OpenAI也在Sora技术报告中提出,Sora能够模拟如视频游戏的数字化过程,根据官方视频演示,Sora能在控制如《Minecraft》的游戏角色进行基本操作的同时,高质量动态渲染游戏世界。可以预见,Sora未来将可能被应用生成游戏动画和场景等,增加游戏情感故事背景,提高可玩性,游戏开发者的成本将被降低。
04
Sora的挑战:商业化仍有阻力,法律伦理问题尚待研究
本文所提及的任何资讯和信息,仅为作者个人观点表达或对于具体事件的陈述,不构成推荐及投资建议,不代表本社立场。投资者应自行承担据此进行投资所产生的风险及后果。
《新财富》杂志于2001年3月创刊,专注资本市场深耕细作,“最佳分析师”“金牌董秘”“500创富榜”“最佳上市公司”“最佳投行”等权威专业评选和《德隆系》《明天帝国》《收割者》等经典研究案例影响深远。
新财富杂志社旗下主要新媒体平台包括:新财富杂志微博、新财富杂志公众号、新财富杂志视频号。
地址:深圳福田区华富街道莲花一村社区皇岗路5001号深业上城T1栋59楼