用AI做视频编解码器现在有点野了GAN-中国商业网

客服电话

点击联系
在线时间：8:00-23:00

电子邮件
快速发帖
问题反馈

扫描二维码

关注星点互联微信公众号
返回顶部

中国商业网 › 首页 › 媒体看台›

用AI做视频编解码器现在有点野了GAN

2021-10-03 01:37 来自:IT之家收藏分享邀请阅读量：6311

摘要: 用AI做视频编解码器现在有点野了。插帧，过拟合，语义感知，GAN你有没有想过这些脑洞或者AI算法也可以用在编解码器上比如原算法压缩到每帧16.4KB后，森林开始变得极度模糊。但是使用GAN后，不仅画面更清晰，...

用AI做视频编解码器现在有点野了。

插帧，过拟合，语义感知，GAN你有没有想过这些脑洞或者AI算法也可以用在编解码器上

比如原算法压缩到每帧16.4KB后，森林开始变得极度模糊。

但是使用GAN后，不仅画面更清晰，而且每帧图像也更小，只需要14.5KB！

例如，将帧插入的思想与神经编解码器相结合，可以使最新的压缩算法更好.

这一系列算法背后的原理是什么，使用AI制作编解码器的潜力有多大。

我们采访了高通工程技术副总裁，AI研究方向负责人侯继磊博士，了解了高通部分AI编解码器的算法细节和原理。

编解码器逐渐被引入。

当然，在了解AI算法的原理之前，我们需要知道视频是如何压缩的。

没有压缩，每秒30帧，8—8位单通道色深的480p视频每秒会传输80 Mbps的数据，在互联网上实时观看高清视频几乎是不可能的。

目前，压缩方法主要有色度二次采样，帧内预测和帧间预测。

色度子采样主要是基于我们的眼睛对亮度比对颜色更敏感的原理，对图像的颜色数据进行压缩，但在视觉上仍能保持接近原始图像的效果。

帧内预测使用同一帧中的大量相同颜色块来预测图像中相邻像素的值，使得结果比原始数据更容易压缩。

帧间预测是一种用于消除相邻帧之间大量重复数据的方法。使用称为运动补偿的方法，通过使用运动矢量和预测值来计算两个帧之间的像素差:

这些针对视频编解码器的视频压缩方法，有大量的压缩工作要做，包括分区，量化，熵编码等。

但据侯吉磊博士介绍，从H.265到H.266，虽然压缩性能提升了30%左右，但这是在编码复杂度增加30倍，解码复杂度增加2倍的情况下实现的。

这意味着编解码标准逐渐进入内卷化状态，提升的压缩效果本质上是与编解码的复杂度交换的，并不是真正的创新。

因此，高通从现有压缩方法的原理和编解码器的构造出发，开发了几种有趣的AI视频编码和解码方法。

提高3个方向的压缩性能。

具体来说，目前的AI研究包括三个方向:帧间预测方法，降低解码复杂度和提高压缩质量。

预测了乙帧的预测

从帧间预测的角度来看，高通提出了B帧编解码的新思路，论文已在《ICCV 2021》上发表。

I :帧内编码帧，P :前向预测编码帧和B :双向插值预测编码帧。

目前大部分编解码器都侧重于I帧和P帧，而B帧则采用I帧和P帧的双向运动补偿来提高压缩性能，这在H.265中是官方支持的。

虽然使用B帧后视频压缩性能更好，但仍然存在两个问题。

一是视频需要提前加载，另一个是仍然会有冗余如果I帧和P帧高度相关，使用双向运动补偿是很浪费的

例如，如果视频中只有一个球在距离I帧，B帧和P帧一定距离的直线上移动，如果使用双向运动补偿，将会浪费33，360。

在这种情况下，使用帧插入似乎更好，并且可以通过时间戳直接预测对象运动的状态，并且编码计算也更低。

但是，会有新的问题:如果I帧和P帧之间有非常大的突变，比如球在B帧突然弹起，那么插帧的效果就非常差。

因此，高通选择将两者结合起来，基于神经网络的p帧压缩和帧插入补偿，并使用AI来预测帧插入后的运动补偿。

不用说，效果真的很好，比之前谷歌在CVPR 2020上保持的SOTA纪录还要好，也比目前基于H.265标准的开源编解码器的压缩性能要好。

除此之外，高通还尝试了一些其他的AI算法。

通过过拟合降低解码复杂度。

鉴于编解码器的标准内卷化，高通还想到使用人工智能作为自适应算法，根据视频比特流像过拟合一样更新模型的权重增量部分相关论文已在《ICLR 2021》发表

这种方法意味着过度拟合单个模型，对比特流中的权重增量进行编码，然后将其与原始比特流进行比较如果效果更好，使用这种传输模式

实验证明，该方法在不降低压缩性能的情况下，解码复杂度降低了72%，同时仍然保持了之前B帧模型所获得的SOTA结果。

当然，除了视频压缩性能，还需要考虑单帧图像的压缩质量毕竟视觉效果也是视频压缩追求的标准之一

利用语义感知和GAN提高压缩质量。

使用语义感知和GAN更简单。

语义感知就是让AI基于人类视觉进行考虑，选择你在看视频时最关注的地方，关注那部分的比特分配。

比如看网球比赛的时候，往往不关注观众是什么样子的，不关注比赛旁边的风景是什么样子的，更多的是关注球员自己的动作和击球方法。

然后，就训练AI，在目标人物身上多放点位，就像这样:

从结构上讲，也是。

比较简单，也就是我们常见的语义分割 Mask:

这种方法能很好地将受关注的局部区域帧质量提升，让我们有更好的观看效果，而不是在视频被压缩时，看到的整幅图像都是打上马赛克的样子。

据高通表示，这种语义感知的图像压缩，目前已经在扩展到视频压缩上了，同样是关注局部的方法，效果也非常不错。

而基于 GAN 的方法，则更加致力于用更少的比特数生成视觉效果同样好的图像质量:

期待这些技术能马上应用到手机等设备上，让我们看视频的时候真正变得不卡。

极兔助力安徽制造出海合肥至新加坡“快递

欧时力2017春夏大片发布超模贝拉

2021-09-02

任性相处，韧真爱

2021-09-02

2021 seegreen新品发布会

2021-09-02

Van Cleef & Arpels

2021-09-02

特别观察：“衣中茅台”比音勒芬独树一

2021-09-02

阅读排行

1 [产业资讯]今年年初三星电子宣布计划

2 [财经资讯]电视剧《鱿鱼游戏》在全球

3 [热点观察]香港中央市场悬挂国旗和区

4 [媒体看台]带来了充电权限功能可以通

5 [产业资讯]ABB电动汽车部门总裁弗

6 [商业热点]荒野版vivoX70Pr

7 [财经资讯]我们正在积极备货整个国庆

8 [经济报道]2020迪拜世博会开幕迪

9 [媒体看台]中联重科沅江密炼机智能制

10 [财经资讯]2022年底前蔚来将在挪

精选展示

“我们的责任旅程”新秀丽品牌尊享会——打造沉浸式轻奢都市生活体验2021年4月2

[品牌时尚]与新秀丽一同开启全新“责任旅程”

2021年4月11日，HIPANDA2021秋冬大秀空降上海时装周。作为率先走出

[品牌时尚]国潮新定义，HIPANDA空降上海时装周

雨霁风光正春分，千花百卉争明媚。3月20日，长沙时装周砂之船国际名品秀如约举行，

[品牌时尚]长沙时装周暨砂之船春购嘉年华邀您共赏春日

2021年3月16日，ALLOVE欧奈芙“逐光之旅荣耀起航”新品发布会于深圳水贝

[品牌时尚]逐光之旅启幕，ALLOVE全新系列珠宝惊

近年来，国潮品牌发展态势越来越好，逐渐从小众变为主流并渐渐登上荧幕，不仅是众多一

[品牌时尚]释放自我、追求自由，GUUKA再创新潮流

PONTDESAMOUREUX相遇情人桥2021年1月26日-31日，VanCl

[品牌时尚]Van Cleef & Arpels梵克

关于我们|网站地图|手机版| 中国商业网 ( 备案号：京ICP备17032466号-1 ) security

, Processed in 1.132592 second(s), 12 queries

电子邮件

用AI做视频编解码器现在有点野了GAN

上一篇：

下一篇：

新钛云服A轮融资数千万元！获资本和客户双重青睐！

“北极宫茶业”董事长刘翔：话说茯茶匠制金花

“缙云县盛大实业”总经理胡剑雄做客《崛起中国》

花滑世界冠军的冰雪传承梦

立足黑科技，智康时代为人们提供多道防护共筑防疫新长城

极兔助力安徽制造出海合肥至新加坡“快递

欧时力2017春夏大片发布超模贝拉

任性相处，韧真爱

2021 seegreen新品发布会

Van Cleef & Arpels

特别观察：“衣中茅台”比音勒芬独树一

电子邮件

用AI做视频编解码器现在有点野了GAN

上一篇：

下一篇：

新钛云服A轮融资数千万元！获资本和客户双重青睐！

“北极宫茶业”董事长刘翔：话说茯茶 匠制金花

“缙云县盛大实业”总经理胡剑雄做客《崛起中国》

花滑世界冠军的冰雪传承梦

立足黑科技，智康时代为人们提供多道防护共筑防疫新长城

极兔助力安徽制造出海 合肥至新加坡“快递

欧时力2017春夏大片发布 超模贝拉

任性相处，韧真爱

2021 seegreen新品发布会

Van Cleef & Arpels

特别观察：“衣中茅台”比音勒芬独树一

“北极宫茶业”董事长刘翔：话说茯茶匠制金花

极兔助力安徽制造出海合肥至新加坡“快递

欧时力2017春夏大片发布超模贝拉