短视频内容理解与生成技术在美团的创新实践

美团围绕丰富的本地生活服务电商场景,积累了丰富的视频数据。

美团场景下的短视频示例

视频行业发展

我们能够快速进入了视频爆炸的时代,是因为多个技术领域都取得了显著的进步,包括拍摄采集设备小型化、视频编解码技术的进步、网络通信技术的提升等。近年来,由于视觉AI算法不断成熟,在视频场景中被广泛应用。本文将主要围绕如何通过视觉AI技术的加持,来提高视频内容创作生产和分发的效率。

美团AI——场景驱动技术

说到美团,大家首先会想到点外卖的场景,不过,除了外卖之外,美团还有其他200多项业务,涵盖了“吃”、“住”、“行”、“玩”等生活服务场景,以及“美团优选”“团好货”等零售电商。丰富的业务场景带来了多样化的数据以及多元化的落地应用,进而驱动底层技术的创新迭代。同时,底层技术的沉淀,又可以赋能各业务的数字化、智能化升级,形成互相促进的正向循环。

美团业务场景短视频

短视频技术应用场景

显式的视频内容标签在很多场景下是必要的,例如:内容运营场景,运营人员需要根据标签,开展供需分析,高价值内容圈选等工作。上图中展示的是内容理解为视频打标签的概要流程,这里的每个标签都是可供人理解的一个关键词。通常情况下,为了更好地维护和使用,大量标签会根据彼此之间的逻辑关系,组织成标签体系。

那么视频标签的应用场景有哪些?它背后的技术难点是什么?在美团场景下比较有代表性的例子——美食探店视频,内容非常丰富。标签体系的设定尤为关键,打什么样的标签来描述视频内容比较合适?

由于视频标签的标注代价非常昂贵,技术方案层面需要考虑的是:如何在尽量少用业务全监督标注数据的情况下学习更好的基础特征。首先,在任务无关的基础模型表征层面,我们采用了在美团视频数据上的自监督预训练特征,相比在公开数据集上的预训练模型,更加契合业务数据分布。

通过使用这部分数据做预训练,可以得到一个初始的TeacherModel,给业务场景无标注数据打上伪标签。这里比较关键的是由于预测结果不完全准确,需要基于分类置信度等信息做伪标签清洗,随后拿到增量数据与TeacherModel一起做业务场景下更好的特征表达,迭代清洗得到StudentModel,作为下游任务的基础表征模型。在实践中,我们发现数据迭代相较于模型结构的改进收益更大。

面向具体标签的性能提升主要应对的问题是,如何在基础表征模型的基础上,高效迭代目标类别的样本数据,提升标签分类模型的性能。样本的迭代分为离线和在线两部分,以美食探店标签为例,首先需要离线标注少量正样本,微调基础表征模型得到初始分类模型。这时模型的识别准确率通常较低,但即便如此,对样本的清洗、迭代也很有帮助。设想如果标注员从存量样本池里漫无目的地筛选,可能看了成百上千个视频都很难发现一个目标类别的样本,而通过初始模型做预筛选,可以每看几个视频就能筛出一个目标样本,对标注效率有显著的提升。

第二步如何持续迭代更多线上样本,提升标签分类模型准确率至关重要。我们对于模型线上预测的结果分两条回流路径。线上模型预测结果非常置信,或是若干个模型认知一致,可以自动回流模型预测标签加入模型训练,对于高置信但错误的噪声标签,可以通过模型训练过程中的一些抵抗噪声的技术,如:置信学习进行自动剔除。更有价值的是,我们在实践中发现对于模型性能提升ROI更高的是人工修正模型非置信数据,例如三个模型预测结果差异较大的样本,筛出后交给人工确认。这种主动学习的方式,可以避免在大量简单样本上浪费标注人力,针对性地扩充对模型性能提升更有价值的标注数据。

上图展示了点评推荐业务视觉主题标签的应用案例,最具代表性的即为高价值内容的圈选:在点评App首页信息流的达人探店Tab中,运营同学通过标签筛选出有「美食探店」标签的视频进行展示。可以让用户以沉浸式地体验方式更全面地了解到店内的信息,同时也为商家提供了一个很好的窗口,起到宣传引流的作用。

上图展示了,不同维度标签对于技术有不同要求,其中细粒度实体理解,需要识别具体是哪道菜,与上层粗粒度标签的问题不同,需要考虑如何应对技术挑战。首先是细粒度识别任务,需要对视觉特征进行更精细的建模;其次,视频中的菜品理解相较于单张图像中的菜品识别更有挑战,需要应对数据的跨域问题。

上图()中展示的是第二部分的挑战。图像和视频帧中的相同物体常常有着不同的外观表现,例如:图片中的螃蟹常常是煮熟了摆在盘中,而视频帧中经常出现烹饪过程中鲜活的螃蟹,它们在视觉层面差别很大。我们主要从数据分布的角度去应对这部分跨域差异。

业务场景积累了大量有标注的美食图像,这些样本预测结果的判别性通常较好,但由于数据分布差异,视频帧中的螃蟹则不能被很确信地预测。对此我们希望提升视频帧场景中预测结果的判别性。一方面,利用核范数最大化的方法,获取更好的预测分布。另一方面,利用知识蒸馏的方式,不断通过强大的模型来指导轻量化网络的预测。再结合视频帧数据的半自动标注,即可在视频场景下获得较好的性能。

例如,通过算法自动挖掘出视频片段和标签,左图展示了标签出现的频率,呈现出明显的长尾分布。但值得注意的是,通过这种方式,算法能够发掘到粒度较细的有意义标签,比如“丝巾画”。通过这种方式可以在尽量减少人工参与的前提下,发现美团场景更多重要的标签。

另外,视频内容生产根据应用形式可分为三类:

下面,我们就三类应用形式展开说明。

第一类,图像生成视频。该部分要做的更多是针对图像素材的理解和加工,使用户对技术细节无感的前提下,一键端到端生成理想素材。如上图所示,商家只需要输入生产素材的图像相册,一切交给AI算法:首先算法会自动去除拍摄质量较差的,不适合展示的图片;然后做内容识别,质量分析。内容识别包括内容标签,质量分析包括清晰度、美学分;由于原始图像素材的尺寸难以直接适配目标展位,需要根据美学评价模型,对图像进行智能裁切;最终,叠加Ken-Burns、转场等特效,得到渲染结果。商家即可获得一个编排精美的美食视频。

还有酒店场景下相册速览视频生成的例子,相比动图,需要结合音频与转场特效的配合。同时,视频对优先展示什么样的内容有更高要求,需要结合业务场景的特点,根据设计师制定的脚本模板,通过算法自动筛选特定类型的图像填充到模板相应位置。

第二类,视频生成视频片段。主要是将长视频切分并优选出若干个更精彩、符合用户预期的内容作展示。从算法阶段划分为片段生成和片段筛选排序。片段生成部分,通过时序切分算法,获取镜头片段及关键帧。片段排序部分,比较关键,它决定了视频优先顺序。这也是比较困难的部分,它有两个维度:

2.2.3.1智能封面与精彩片段

原始视频

算法剪辑视频(10s)

我们通过视频生成视频片段,实现了两种应用场景。一是智能动态封面,主要基于通用基础质量优选出清晰度更高、有动态信息量、无闪烁卡顿的视频片段作为视频的封面,相比于默认片段的效果更好。

像素级编辑处理最重要的技术之一是语义分割,在应用场景中面临的主要技术挑战是既要保证分割模型时效性,也要保证分辨率,保持高频细节信息。我们对于经典的BiSeNet方法做出了进一步改进,提出了基于细节引导的高效语义分割方法。

由于图像的细节真值前后背景分布严重不均衡,因此我们采用的是DICEloss和BCEloss联合训练的方式;为了验证细节引导的有效性,我们做了这个实验,从特征可视化的结果中可以看出多尺度获取的细节真值对网络进行细节引导能获得最好的结果,细节信息引导对模型的性能也有所提升。

效果方面,通过对比可以看出我们的方法对于分割细节的高频信息保持具有较大的优势。

THE END
1.10s广告片视频10s广告片高清原创视频下载新片场社区汇聚全球优秀创作人和海量作品精选出402806条10s广告片等4K原创短视频,覆盖10s广告片相关的广告,宣传片,剧情短片,创意混剪,婚礼,纪录片,特殊摄影,旅拍,Vlog,影视干货教程,音乐MV等10s广告片无水印高清视频案例学习下载https://www.xinpianchang.com/search/1224565
2.短视频霸屏获客新策略:掌握7大埋词点,抢占精准流量与客户资源[4]-第四节:如何通过合集抢占排名.mp4 [5]-第三节:7大埋词点抢占精准流量.mp4 [6]-第五节:如何在评论区出现搜索小蓝条.mp4 [7]-第六节:如何获取更高权重和播放量,mp4 [8]-第七节:抖音搜索霸屏的3多法则.mp4 [9]-赠:企业抓住短视频红利的3个关键点.mp4https://www.x4xm.top/79534.html
3.100%能上热门的短视频:2025轻松让你的短视频火爆全网的秘诀大公开随着社交媒体和移动互联网的快速发展,短视频已成为人们日常生活中不可或缺的一部分。从TikTok到Instagram Reels,短视频平台层出不穷,吸引着亿万用户的关注。如何在这片竞争激烈的短视频市场中脱颖而出,成为每一个创作者面临的挑战。本文将揭秘2025年短视频火爆全网的秘诀,助你轻松上热门! http://ambjws.newssd.cn/post/1056.html
4.短视频如何设置开头?钩子定理,开头一分钟设置悬念短视频的开头至关重要,它需要吸引观众的注意力并唤起他们的兴趣。为了实现这一目标,我将使用钩子定理,通过设置悬念来让观众着迷。 1、短视频前5-10S——钩子:让观众关注 在短视频的前5至10秒内,在一个引人注目的场景中提出一个问题。这个问题应该与视频主题相关,并能够引起观众的好奇心。例如,如果视频的主题是https://www.ketangjie.com/yyjq/6654.html
5.抖音怎样直接发视频和照片(短视频如何在抖音发布作品)首页教程抖音怎样直接发视频和照片更新时间:2023-06-15 21:49:25随着移动互联网的普及以及人们对于视听体验的追求,短视频平台越来越受欢迎。其中,作为华语区最有影响力的短视频平台之一的抖音备受短视频爱好者青睐。下面,本文将为您介绍如何在抖音发布短视频作品。一、账号注册首先,您需要在抖音上注册一个账号。https://www.down10s.com/jiaocheng/5608438006.html
6.什么是短视频剪辑包装?短视频剪辑有何技巧?什么是短视频剪辑包装?短视频剪辑有何技巧? 在拍摄时,如果手机摆放位置比较远,此时用户可以利用“倒计时”功能来远程控制暂停录制。在拍摄界面点击“倒计时”按钮,例如我们只要拍摄10s就暂停,可以将暂停拉杆拖到10s的位置处即可。 现在做短视频的人其实挺多的,如果做的不错的话,也可以通过短视频剪辑获得一些收益。https://m.maijia.com/article/525594
7.御赐小仵作X御泥坊氨基酸泥浆面膜中插广告10S短视频广告媒体类别:短视频 广告语言:汉语 媒介平台:网络 综合评分 0 暂无评分 创意 0 文案 0 视觉 0 创作者 导演: CHAO Studio 摄影指导: CHAO Studio 剪辑师: CHAO Studio 美术指导: CHAO Studio 其他职位: 制片人:CHAO Studio 案例详情 御赐小仵作 X 御泥坊 氨基酸泥浆面膜 中插广告 10S https://www.adguider.com/case?id=5b609571994b496aa46533ace5d7e8eb
8.企业抖音短视频,怎么做?才能更有利于转化、视频的时长:10S左右为佳,好不要超过15S 为什么我说不要超过10S,因为抖音对于短视频的定义是大于3S,短视频,这是一个偏义词,它的重点意思是短!越短的视频,它的完播率越高,这在抖音视频推送里面是一个加分项。 第二、视频的内容,企业号在做内容的时候究竟要做哪些内容? https://www.sbmzenith.com/archives/8166
9.罗坑抖音短视频运营报价抖音短视频如何增加播放量?尽量在早期压缩视频时间。前期尽量在短时间内完成自己的作品,10s能解决的事情不要花11s,这样可以在一定程度上提高完播率。 罗坑抖音短视频运营报价 抖音短视频如何增加播放量?选择合适的挑战或合拍抖音。官方每天都有很多挑战。你应该根据你的账户定位积极参与活动。此外,抖音上还有很多流行https://www.yxybrand.com/article/242815.html
10.小米10S抛弃原配,大战原生Android13小米集团小米10s视频加载失败 声明:个人原创,仅供参考 Violeta 1粉丝 好物及软件分享 10:44 小米10S更换手机电池So easy 04:04 DIY素皮手机背板 04:27 小米电脑管家V4.3.0.1881视频演示 02:35 小米电脑管家4.3.0.1881免检测一键安装 03:01 免机型验证_小米电脑管家4.2.4.1982 03:26 小米10S刷澎湃OS1.0.13 12:22https://www.163.com/v/video/VHCV7CJA5.html
11.日系2D短视频动漫的制作方向HandWorks短视频原创动漫的出现丰富了短视频内容,撇开内容基础,论单人/微小团队制作短视频2D角色原创动漫的多元化可能性。 应用范围 短视频平台,以10s至20s的播放时长为佳 制作以及优劣 2D角色按实际应用,可分为Q版以及多头身。 Q版:绘制->绑骨->制作动作表情库 https://www.zcool.com.cn/work/ZNTM2NjQ3MDA=.html
12.短视频分镜头拍摄脚本(5篇)(7页)《青春纪念册》分镜头脚本 镜头 场景 对白 音乐、音效 时间 1 同学A坐在操场阶梯上,眺望远方。镜头由远拉近,转到背影。操场的空旷与背影形成对比。 旁白:又到凤凰花开的时候了,今年是不是太难了。 《凤凰花开的路口》 10s 2 镜头推进同学A的背影,直至画面全黑。 旁白:https://mip.book118.com/html/2023/0831/7034001046005152.shtm
13.九阳产品10S创意视频合集mp4创意片库视频截图 27秒 爱给网提供海量的创意片库资源素材免费下载, 本次作品为mp4 格式的九阳产品10S创意视频合集, 本站编号45227099, 该创意片库素材大小为11m, 时长为30秒, 分辨率为1280*720, 该素材已被下载:1次, 更多精彩创意片库素材,尽在爱给网。 https://www.aigei.com/item/jiu_yang_chan_p_6.html
14.拍短视频App排行榜VIVO手机拍短视频app推荐ViVO手机拍短视频App排行榜由点点数据提供。本次排行榜包含了:快影-视频拍摄与编辑软件、左拍-短视频直播运营、快拍短视频制作、短视频制作、腾讯微视-短视频创作与分享、短视频特效、玩转短视频、土豆短视频、TK伴侣-国际版短视频、晓秀等十大拍短视频App排行榜 https://www.diandian.com/phb/1917/4-1.html
15.安卓SpannableString合并androidts合并audio 5s video 10s 接着音频短的片尾斜街一段 小结 ffmpeg 有三种常见的视频合并方式:demuxer,protocol,filter 这里有介绍它的使用 : http://trac.ffmpeg.org/wiki/Concatenate#demuxer 本文主要介绍ts流合并视频时候合并后视频的pkt是如何计算的,音画是怎么同步的。 https://blog.51cto.com/u_12929/11345627
16.短视频祝福视频素材下载短视频祝福小视频模板大全摄图视频库提供短视频祝福视频,短视频祝福视频大全,短视频祝福视频合集,短视频祝福视频库,短视频祝福视频素材库,找视频素材就来摄图,高清视频库正版授权放心用https://699pic.com/movie/125292.html
17.短视频实操方法试题1、下列哪些属于短视频实操是影响抖音推荐数据的指标( ) A、完播率B、点赞量C、评论量D、转发量 2、视频剪辑中画面的基本要求是( ) A、画面清晰B、画面稳定C、光线充足D、团购信息明确 3、在短视频拍摄技巧中易于控制,均匀,能够凸显出对象或演员轮的光源是( ) A、主光B、辅光C、背光D、侧光 4、【单https://www.wjx.cn/xz/274451198.aspx