无损质量等级视频浅压缩领域的实践与探索音视频及家电

面对这些问题,一种办法是将物理信道继续拓宽,将线加粗,但这种方法并不是特别的方便,线加粗了可能就没有办法弯折。另一个办法就是去进行压缩,减低物理带宽的要求,这就是接口压缩。在内容制作方面,通常前端的专业摄像机会采集yuv或者rgb格式的信号,传递到媒体工作站以后再编辑内容,所有的工作都在磁盘文件上进行,磁盘的读写是一个非常大的瓶颈。目前解决的办法是在信号到达媒体工作站以后转化成一种非常方便编辑的格式,这种格式要求必须是单张图片的编解码,而不允许图像间的预测编码。这样每张图片编辑之后,内容可以直接进行储存。

在技术需求上浅压缩与深压缩有很大的区别。浅压缩的内容不仅直接会在显示屏上显示,还会在后台进行分发域编码,从而作为母本使用。其色彩格式通常都是yuv444、rgb等非常高质量的格式。浅压缩的色彩位深在标准里面是支持8-16比特。同时支持信号无损和视觉无损。浅压缩典型的压缩比是3倍到10倍,这与视频分发有显著的不同。在进行H.265编码时,典型的码率,例如1080p,通常会在2兆到4兆之间,这已经是非常高质量的视频了。典型压缩比在200:1,甚至500:1,这是所谓的深压缩或者重压缩。从这里就可以明显的看到使用浅压缩,即便压缩完其码率也会达到百兆或者千兆的量级。

-02-

AVSPLC标准概述

质量评估采用非常高质量的图片,包括RGB和YUV444两种格式,主要覆盖的位深为8比特和10比特,16比特也在后期的拓展中进行了非常充分的评估。内容分为两类,一类是摄像机采集的自然内容,一类是计算机生成内容。具体的评估参考了ISO29170-2标准。该标准包含两部分:一部分是交替闪烁法,一部分是并排对比法。交替闪烁法是指将编码前和编码后的图像,按照8赫兹交替播放,如果能看到任何闪烁,就说明图像质量不过关。

这是一个非常严格标准。在实际使用过程中,并没有条件去看到编码前的图像,所以并排对比法更为常用。该方法是在两个屏幕或者一个屏幕分为两半,展示相同的部分,同时指出失真的地方,即交替闪烁法闪烁的地方,让大家观看。如果大家看不到,则通过测试。在测试时对测试设备有一定的要求。首先要确认显示器、播放设备支持高比特位深,还要保证显示接口未对传输图像做任何处理,如果还不放心可以使用灰阶样图验证是否具有高位深显示能力。在实际操作时发现,不管是8比特的显示器还是10比特的显示器,在发生失真的时候,交替闪烁法测试其失真强度都是一致的,所以在后续标准制定过程中,为了简化并且让更多的单位参与进来,就使用8比特的显示器进行所有的测试。

今年4月份AVS标准组在鹏城实验室组织了一场非常详细的测试:使用27张测试图片,包括相机采集以及计算机生成的图片,覆盖了RGB、YUV444等多种格式。经过数据的筛选和分析,最终27条内容中25条通过了闪烁测试,27条全部通过了并排对比测试。

除了对PLC标准方案做通过性画质评估,也和业界已有的DSC规范进行了对比评估,评估结果如左下角的表格所示。

-03-

高性能并行处理机制

高层并行更好理解,指拿到图像之后,划成矩形的条带——slice。各个slice之间可以进行并行编码,本质上是一个可伸缩的架构,随着视频规格的上升,例如从4k到8k,从30帧到60帧,想支持更高的规格,在硬件设计时只要添加更多的处理单元或者硬件核即可。需要特别提出,条带的划分只有在水平方向并排排列的条带才可以进行并行处理。核心原因在于硬件处理图像时是按照一行一行像素进行处理的。解码端需要保证解码完一行或者两行之后立刻进行输出。

-04-

底层编码工具

底层工具可以简单的分为两类,一类是常规的编码工具,一类是异常处理工具。常规编码工具,主要用于提供基础的压缩效率。出于成本的考虑,我们选择了三种工具。首先块预测主要依靠上面一行的像素,以及左边重建的像素,进行方向性的角度预测。其优势在于具有非常高的并行度,框内所有像素都可以同时获得其预测值,但是在纹理变化区域就没有办法进行很好的适配。右上角的点预测则可以很好地处理这种复杂纹理的图像。通过在每一个像素点上进行独立的预测、残差编码和重建,第1个像素点的重建会被用作相邻的第2个像素点的预测。该方式的预测效率是最高的,但有一个非常致命的问题,其硬件性能非常差。为此我们进行了一些约束,在一个块所有像素进行处理时,保证其需要串行处理的像素数量最大为3。

在一些特殊的情况下预测编码,反而会使得编码之后的比特数高于直接编码原始值的比特数,一旦发现这种情况就需要退回到原始值的编码。第二个模式是回退模式。因为我们耦合了一个CBR码控,码控的核心是确定QP,确定QP之后编码出来的比特其实与预计的目标还是有上下浮动的情况,即码控不可能做到比特级的精准。这就需要有一种机制能够强制地将压缩比特控制在一个阈值之下,避免buffer的溢出。这个回退模式更多的进行兜底处理。

在实践过程中,我们发现16x2块级的预测并不能够非常好的适配纹理内容突变的场景。通过不断探索,我们发现将预测做到子块级可以很好的解决上述的问题。为此我们开发了相应的几个算法:第一个算法是直接划分更小的子块,每个子块独立进行DC预测,这样的扩展确实能够减轻主观失真。第二个算法是子块DC补偿。

一个编码完成后,如果它的平坦区域编码效果不理想,可以通过这样的补救措施,在4×2或者8×1的级别上额外的传输原始值与当前重建值的差值,在补偿之后效果明显提高,编码质量非常好。在很多典型图像里,文字之间背景是平坦的,但文字之内是非常复杂的,通常会采用块复制的方式处理。如果文字间隔能够使用空间预测,例如竖直方向的预测等,可以显著改善文字之间水平方向的条状失真。右上角的子块插值预测是为了处理一种比较少见但对画质影响很大的情况。

如果当前编码块的所有预测方法都已失效,例如当前编码块是一个平坦的块,但无论是上方还是左方的参考都是噪声,没有办法获得有效的预测值,则可能在这个平坦区域带来人眼可察觉的编码失真。这个问题可以通过直接编码整个块的DC值,再去编码块里每个像素相对于DC值的差值。该模式下,当前图像块来是完全独立编码的,不依赖左侧和上方的像素。所有模式结合起来,在一些非常小的、非常容易忽略的地方,甚至特别敏感的平坦区,都会有很好的处理效果。

无论预测模式多差,如果能够用非常小的量化补偿进行处理,其主观效果都可以接受,无非多花一点比特而已。但这就对量化机制提出了要求,需要其支撑非常精细的调节。与一般标准不同的是,我们的标准基于右移量化。以AVS为例,AVS2和AVS3是进行分数量化。QP每增加8,量化步长就会加倍。精细的调节一个量化操作,通常包含一个乘法和一个右移的操作。频繁的进行高性能处理,对于硬件来说是一个很大的问题。所以我们取消了乘法操作,把量化简单的化简为右移。没有乘法也就意味着量化步长就是不断qstep加倍的过程。量化是分不同等级的。CU级量化会根据块的复杂度在编码端进行分析。分别分析亮度和色度,来划分其属于哪一个复杂度等级,从而推导出对应的QP。

QP的推导过程是编、解码端同时进行的,这与传统编解码标准不同。传统的分发域重压缩标准,QP会在编码端推导出来之后再传递给解码端。除了CU的基础QP,在每一个2×2的子块,还可以进行额外的调节。根据当前此块上参考的纹理复杂度分析,如果判断当前子块比较平坦,会额外在CUQP基础上进行减1或者减2的操作,用更高质量进行编码;如果子块比较复杂,就维持CUQP不变。除了子块量化,还有逐点量化,逐点量化是跟上文提到的点预测组合应用的。如果一个点的残差比较大,就说明这个区域是难以预测的,QP需要相对分配的较大一点,反之则说明区域比较好预测,是一个平坦区域。平坦区域需要进行重点的保护,需要将QP进一步的减小。

RDO计算是编码侧一种操作。这里需要特别指出,由于采用的是CBR码控,要保证buffer不溢出,在选择RDO的过程中更加倾向于低比特。RGB的内容会转化成YCoCg之后再进行编码。在高层并行时,矩形slice需要进行并行处理。图像的宽和高都要和CU的16×2进行对齐。常见的对齐方法是大家所熟悉的padding。Padding有两种方法,一种是在图像的右侧进行,其优点在于复杂度较低,但编码可能会不均衡。第二种方法是在每个slice的右侧做,可以解决编码不均衡的问题,但同时会面临另外一个问题——每一个硬件的核心都需要进行填充,会带来额外的成本增加。标准中同时支持了两种padding的方式,大家可以按需选择。

-05-

CBR码控与质量优化

码控有两个主要的输入,第一个输入是当前块儿到底是复杂还是简单?第二个输入是buffer目前到底是空还是满?码控的输出是亮度分量与色度分量的QP。核心思想在于判断图像编码中一个编码块之前所有块整体是好编还是难编。当然只有这些信息是不够的,在前面所有块处理完之后,会对块的复杂度做一个简单的分类,将其分为5个复杂度等级。每一个等级会有对应预测编码比特,这样就有了较为充分的信息,从而对当前的块进行更好的码率规划以及码率分配。

在码控最开始的时候,存在一个delay,其作用是为了在buffer里累积一定量的初始比特。这样在后面进行CBR传输时,可避免发生buffer下溢的情况。即便发生了buffer下溢,标准中也存在下溢填充的机制进行兜底。码控需要使用buffer充溢度作为输入。但是在slice初始与结尾时,真实水位并不匹配码控需求。这两个地方需要用虚拟的buffer充溢度进行码控调节。压缩非常依赖上方参考的像素行,如果上方像素行不可得,会出现较大的编码压力。如果上方像素行不可得,需要为第一行的像素分配更多的比特,使其有更好的质量,避免slice的边界出现失真。首列也存在相似的问题。首列左侧的像素也是不可得,这会对块复制产生影响。块复制向左搜不到时,会向上搜索以提升重建图像质量。

-06-

未来展望

目前已经启动了面向制作域的AVS422和AVS444的压缩。这里也分为两部分。一部分是摄像机侧,或者说采集域做视频压缩。可以扩展目前仅支持40的AVS3标准方案来支持42以及44色彩格式,从而可以使用专业摄像机采集并压缩更高色彩保真度的视频内容。具体到制作域,其压缩需求又有些许不同。AVS标准组也正计划做一个新的制作域标准,从而满足对软件非常友好的高并行度、低复杂度的制作域单帧编辑操作需求。另外在三维医学影像编码领域,要求做到数学无损,或者主观无损,从技术上也可以归到浅压缩,在这里AVS标准组进行了统一的标准规划。

THE END
1.搜狐汽车搜狐汽车为您提供最新汽车报价,汽车图片,汽车价格大全,最精彩的汽车新闻、行情、评测、导购内容,是提供信息最快最全的中国汽车网站。http://www.auto.sohu.com/
2.美的&华凌空调,拆机对比结果竟然#家电大兵#空调#测评美的&华凌空调,拆机对比结果竟然#家电大兵 #空调 #测评家电大兵 四川 0 打开网易新闻 体验效果更佳司马南:德国含血饮恨 中国到那一步咋办? 司马南频道 1316跟贴 打开APP 导演勇闯红灯区,揭露广东黑老大的灰色产业链,主角被抓才敢上映 毒舌混知所 702跟贴 打开APP 盘点地铁打电话爆笑场面,小伙内容信息量太大,https://m.163.com/v/video/VUB7JQ0BB.html
3.全面增长?再创新高?双11全网最全战报零售今年双11,腾讯视频号开启“双11好物节”,标语为“在视频号边看边买”,像去年一样,直播会场页面包括超级品牌直播、热门直播、带货榜单等内容。 今年参与腾讯视频号“超级品牌直播”的品牌/商家,不仅数量同比去年大增,从去年的13家增加到35家,品类也大大丰富,涵盖在线教育、宠物、家清百货、消费品、本地酒旅、家电https://www.ebrun.com/20231112/534025.shtml
4.各种音视频编解码学习详解h264,mpeg4,aac等所有音视频格式很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视频数据同步的元数据,例如字幕。这三种数据流可能会被不同的程序,进程或者硬件处理,但是当它们传输或者存储的时候,这三种数据通常是被封装在一起的。通常这种封装是通过视频文件格 式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4https://blog.51cto.com/u_15329201/3418978
5.周末要闻汇总:直接安排10万亿元!蓝佛安发声;抖音回应“爱在深秋加力支持家电以旧换新政策出台以来,家电生产、流通企业抢抓“金九银十”“双十一”“精品消费月”等重要节点,叠加优惠让利,政策效应进一步显现。商务部全国家电以旧换新数据平台显示,截至11月8日24时,2025.7万名消费者购买8大类家电产品3045.8万台,带动销售1377.9亿元。 https://wap.eastmoney.com/a/202411103234714416.html