新技术浪潮下的智能视听步入深度变革新阶段
——2023年人工智能赋能网络视听产业观察报告
2023年,生成式人工智能技术突破式发展,在全球范围内掀起热潮,通用大语言模型和垂直模型应用探索爆发式推进,人工智能对各行业的影响进一步加速。网络视听成为人工智能新技术加速应用的核心场景,围绕影视剧、短视频、网络直播等视听形态,在人工智能促进深度合成、视频修复及智能推荐等方面,涌现出诸多创新应用案例,推动智能视听逐渐步入深度变革新阶段。
中共中央总书记、国家主席、中央军委主席习近平近日对宣传思想文化工作作出重要指示强调,“新时代新征程,世界百年未有之大变局加速演进,中华民族伟大复兴进入关键时期,战略机遇和风险挑战并存,宣传思想文化工作面临新形势新任务,必须要有新气象新作为”。
网络视听作为我国文化产业的重要组成部分,在扎实推进社会主义文化强国建设中承担着全新使命。人工智能新技术的创新应用,对推动网络视听产业高质量发展具有重要作用。梳理典型案例,研判未来趋势,对智能视听发展意义重大。
一、人工智能赋能网络视听创新应用案例
2023年,生成式人工智能空前火爆,极大拓展了视听产品生产想象空间。人工智能技术的突破式发展与创新应用,给视听行业带来了“质量与效率”变革,推动视听产品实现更多创意、更高效率、更新体验与更高品质。
(一)综合视频:AI深度渗透产品创作,创造全新体验
2023年,随着AI大模型和多模态AI技术的融合发展,人工智能生成内容的创作能力、通用化能力以及工业化水平快速提升。影视创作中的AI前沿技术应用进入新阶段,贯通影视内容策划、开发、制作和宣发等各个环节。
视频平台爱奇艺在2023年第二季度财报中透露,大语言模型能力与多模态视频理解技术等AI技术已被应用到长视频的剧情理解、提炼等环节,实现了自动化批量产出拆条、解说、混剪等多类型视频内容及多元化图文内容。该技术目前对场景和人物拆解的准确率超过90%,有效提升了剧本评估、预算规划和资源管理等方面的效率。
(二)短视频:AI创作功能快速迭代,催生“超级生产者”
相对于专业的影视制作,AI技术在短视频方面的应用门槛相对更低。在生成式人工智能概念火爆之前,市面上已经有很多AI短视频制作工具,帮助降低短视频制作难度,如抖音官方视频剪辑软件“剪映”此前已经有AI图片转视频等功能。
在关键词自动提取、字幕自动生成等基本操作基础上,文本自动配音、文本转视频、数字人播报、个性化文案、多元风格等升级功能在2023年加速发展。
2023年10月3日,在杭州亚运会跳水比赛收官之际,央视网体育发布了一条由AI技术智能生成的短视频——《为智能亚运点赞全红婵和陈芋汐的每次对决都注定是一场“神仙打架”》。央视网借助能实现画面快速传输的“无影”云电脑、嵌入预设模版、匹配字幕等多项AI技术进行短视频内容的创制。该短视频不仅通过AI实现了高效智能检选创作素材,还可以对已有素材进行合理化剪辑和拼接,并利用大数据算法评估视频画面的传播潜力,即观众的“爱看”程度。同时,该短视频还运用了大语言模型和绘画创作大模型等AI产品,涉及的主要功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持以及辅助图片创作等。AI技术的应用提高了短视频的创作与传播效率,拉近了观众与赛场的距离。
(三)网络直播:数字人涌入直播间,丰富消费场景
2023年,人工智能技术进一步应用到电商直播、音乐会直播、体育直播等多种场景中,催生直播行业创新玩法,网络直播的消费场景和商业模式迎来新突破。
大批数字人虚拟主播涌入直播间带货,成为当前网络直播行业的火热景象。在直播电商流量和人力成本高涨的情况下,数字人直播成为不少平台和企业探索的方向。
2023年618电商促销节期间,京东推出虚拟主播产品。据京东战报显示,“开门红”开启10分钟,数字人直播间开播商家数较去年双11的增幅接近400%。雅诗兰黛、欧莱雅、宝洁等知名品牌均尝试接入虚拟主播服务于电商直播。
体育赛事直播方面,今年杭州亚运会期间,依托中国移动能力中台的智能字幕能力,咪咕智能字幕升级为低时延双行滚动字幕,并在原普通话解说字幕的基础上,首次推出了中国七大方言中的闽南语、粤语直播智能字幕,字幕中文准确率达92%,为提升用户观赛体验赋能。据了解,为实现更加精准的字幕转写服务,咪咕针对方言转写准确率普遍偏低、运动员姓名及运动专业术语易错等难题,运用了方言声学模型优化技术,并进行垂类翻译干预训练,让粤语、闽南语等不同解说语言的智能字幕均能准确呈现。
演唱会音乐会直播方面,利用视频修复等人工智能技术,不少年代久远的演唱会直播视频重新推出,引发了网民情感共振。此外,基于直播与元宇宙概念的结合,多家直播平台搭建沉浸式场景,探索更具颠覆性的社交方式和多元化的兴趣营销场景。
(四)网络音频:AI席卷“耳朵经济”,大模型重塑音频行业
2023年,部分垂直类音频平台通过引入AI大模型,促进了AI领域前沿技术在音频产业落地应用。
相比于图像和视频,AI技术进入音频行业的步伐虽相对较晚,但目前在语音识别、语音合成、语音互动、语音信号处理等领域中的应用已较为成熟。内容创作方面,AI提高音频内容生产效率,解放创作者的内容生产力,促进音频及播客创作生态的繁荣。语音交互方面,AI提高音频产品科技水平,提升消费者体验,满足用户多样化需求。
除了内容的生产创作,大模型还广泛应用于语音交互服务领域。国内音频企业荔枝主要将AI技术应用于机器人语音聊天方面,开发并上线AI聊天机器人应用产品,为用户提供在线AI对话等功能。2023年2月下旬,荔枝在其全球化声音社交产品内接入了AI大模型,推出人工智能聊天机器人模块,并在3月底推出了全新升级版的聊天机器人。该聊天机器人不仅能帮助用户创建在线理想好友,还能为用户提供更加个性化的AI聊天体验和广泛的互动场景,推动AI机器人与原有社交生态的有效融合,从而为用户提供更多情绪倾诉和情感陪伴价值。
2022年12月,国家互联网信息办公室、工业和信息化部、公安部联合发布《互联网信息服务深度合成管理规定》,该规定在《网络安全法》《个人信息保护法》等法律法规框架下,对使用深度合成技术提供互联网信息服务的情形提出了专门性、具体性要求。其中提到:深度合成服务提供者对使用其服务生成或编辑的信息内容,应当添加不影响使用的标识。提供智能对话、合成人声、人脸生成、沉浸式拟真场景等生成或者显著改变信息内容功能的服务的,应当进行显著标识,避免公众混淆或者误认。规定还要求,深度合成服务提供者建立健全管理制度和技术保障措施,制定公开管理规则、平台公约,对使用者进行真实身份信息认证,加强深度合成内容管理,建立健全辟谣机制和申诉、投诉、举报机制。
2023年4月,由广播电视人工智能应用国家广播电视总局重点实验室组织编制的《广播电视和网络视听深度伪造防范技术要求(2022版)》对外公示。该文件重点在深度伪造鉴别、面部识别、黑名单、深度伪造防范能力评估等方面提出要求,为广播电视和网络视听机构在内容审核、发布等环节提升深度伪造防范能力提供参考。
2023年7月,国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、国家广电总局公布《生成式人工智能服务管理暂行办法》(以下称《办法》),自2023年8月15日起施行。这是中国首次对生成式AI研发及服务作出明确规定。《办法》提出国家坚持发展和安全并重、促进创新和依法治理相结合的原则,采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管,明确了提供和使用生成式人工智能服务的总体要求。
2023年9月,科技部、教育部、工信部等十个部门联合发布《科技伦理审查办法(试行)》,对科技伦理审查主体、审查程序、监督管理等内容作出明确规定。其中规定,从事生命科学、医学、人工智能等科技活动的单位,研究内容涉及科技伦理敏感领域的,应设立科技伦理(审查)委员会。
三、未来发展趋势与建议
面对新形势新任务新使命,视听行业必须在人工智能等科技浪潮下抓住机遇,积极拓展创新应用,推动行业高质量发展。
(一)网络视听成为AI大模型垂直应用探索落地核心场景
其中,网络视听始终是信息网络新技术创新应用的前沿领域,未来也将进一步成为大模型垂直应用探索落地的核心场景,推动网络视听生产方式变革,并融合VR等新技术发展,催生新业态新模式,最终重塑视听传播生态格局。
(二)生成式人工智能迭代升级,打造视听行业深度变革新起点
目前,人工智能生成内容对于视听行业的影响直观体现在降低行业门槛、降低制作成本和提升生产力方面。同时,生成式人工智能技术的局限性仍比较突出,其算法和技术仍处于不断发展和完善的过程中,可靠性和普适性仍有待进一步提高。
另一方面,不能因当前的应用局限而忽视生成式人工智能对行业的深度变革影响。目前生成式人工智能的底层技术和产业生态已形成了新格局,未来在更多行业的海量应用场景有望打开。随着数据规模快速膨胀、算力性能不断提升以及人工智能算法不断发展,未来生成式人工智能能够替代内容创作者完成更多内容挖掘、素材查询调用等基础性劳动,创新内容生产范式,为更具艺术性和创造性的内容创作提供可能。
在此背景下,“平均水平的基础劳动”加速被取代,未来视听创作焦点更多转向高质量创意、艺术审美与内容共情,推动更高水平竞争。技术应用与生产范式的突破性创新,也将成为整个视听产业新变局的起点,推动视听形态、场景、体验、产业布局的多维变革,并对文化发展、社会交往等方面产生深远影响。这一过程中,除了提升对新技术应用的敏感性,还需提升对技术深刻、深远影响的认知水平,更好理解视听产业在新时期的角色使命。
(三)新技术交叉融合发展,助力“视听+”产业新生态
当前,人工智能新技术的发展演进不是单一升级,而是与5G、VR等新技术发展相互融合、多点突破,以技术的融合发展应用提升创新密度、解决复杂问题、丰富产品体验。正如人工智能的突破式发展,对元宇宙的真正“脱虚向实”将发挥关键作用,最终推动实现视听形态的升维创新重构。
另一方面,在“万物皆媒”的时代,视听作为一种低门槛、生活化的沟通方式,具备巨大的信息交流“基础设施”优势,使得网络视听行业不断与教育、健康、旅游、制造等各行业交叉融合发展,推动形成“大视听”的产业发展新生态。
随着技术融合与产业融合相互促进,跨模态、多元化、边界消融将成为重要特征。这一过程中,以系统思维布局新技术发展,打破阻碍竞争的壁垒至关重要。
(四)治理协调性有效性加强,AI治理框架逐步完善
在人工智能快速发展过程中,如何做好AI技术应用与治理的平衡,建立合理审慎的AI伦理和治理框架,塑造负责任的AI生态,越来越受到社会各界的重视。
在当前政策措施基础上,下一阶段围绕人工智能技术应用的敏捷治理、分类分级管理将进一步加强,人工智能治理体系逐步完善。在智能视听方面,尤其需要统筹推进“技术”监管与“内容”治理,实现发展与规范的动态平衡。近年来,我国颁布《网络信息内容生态治理规定》《网络数据安全管理条例(征求意见稿)》《互联网信息服务算法推荐管理规定》和《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等规定,从宏观上划定了人工智能技术发展的红线,但就细节而言,涉及应用安全、知识产权保护等探索尚处于起步阶段,仍需根据现实发展不断细化和完善。
2023年,面对人工智能新浪潮带来的巨大冲击,不少声音也提醒,技术催动的深远生态性变革尚需时日,产业仍需在喧嚣中沉淀发展、平稳落地,一方面防止“高估一项技术在短期内的影响”,另一方面防止“低估其在长期内的影响”,人工智能赋能视听行业的创新探索仍任重道远。
(本报告由人民网研究院出品。报告执笔人:人民网研究院研究员刘珊)