原文链接
相比于图像超分,视频超分(VSR,Video Super-Resolution)显然是一件更具挑战性的任务。视频超分比图像超分多了时间维度的信息、更为复杂,而在当时,现有的SOTA方法都基于各种各样的复杂设计,对于各组件也缺乏详细的分析。
所以这篇文章的核心贡献点就是:对目前VSR(vedio super-resolution)方法中的不同组件进行解耦+分析,并对部分组件经过细微修改,搭建了一套简单清晰的方案(Basic VSR),在效果和性能上都超越了当前的SOTA。BasicVSR也容易扩展成更强大的模型,文章在进行扩展后,也得到了更强的IconVSR。
从上图也可以看出来本文提出的方案在当时所有方法中的优越性
论文分析了当下的VSR方法,所其用到的技术分为四种组件:Propagation(传播)、Alignment(对齐)、Aggregation(聚合)以及Upsampling(上采样)。
其中,Propagation表示在时间维度上进行特征传播,Alignment表示对非对齐的图像/特征进行的空间变换操作,Aggregation进行对齐特征的进一步融合,Upsamping表示对聚合后的特征进行转换得到最终的高清视频(上采样)。作者认为影响最大的两个组件主要是Propagation和Alignment。
列举了当前VSR方法的各组件组成情况,其中最优的策略已加粗.
Propagation:这是对VSR方法影响最大的组件,目前的传播策略大致可以分为三类:local(局部)、unidirectional(单向)和bidirectional(双向)。
Alignment也非常重要,将高度相关但是未对齐的特征进行空间变换,从而使其对齐,用于后续的聚合操作。其主要也分为三类:without alignment(无对齐)、image alignment(图像对齐)和feature alignment(特征对齐)。
其中,S表示光流估计,W为空间变换,R为残差模块
Aggregation and Upsampling:BasicVSR采用最基础的组件,聚合操作是直接concate中间特征,上采样模块包括了几层卷积+pixel-shuffle操作。最后输出每一帧对应的高清图像:
pixel-shuffle是一种低计算量的上采样方式,可参考https://zhuanlan.zhihu.com/p/523432126
BasicVSR的整体框架如下图所示,根据上述的分析,Propagation采用双向策略,Alignment采用基于feature-level的光流估计,Aggregation和Upsampling使用concate加pixel-shuffle操作.
BasicVSR简单但有效,在效果和性能上都不输现有的VSR方法,并且容易扩展。
作者基于BasicVSR,新增信息重填机制(Information-refill mechanism)和耦合传播(coupled propagation)得到IconVSR,这能进一步避免传播过程中的错误累积以及促进信息融合,从而提升模型表现。
Information-Refill:在图像边界以及遮挡区域通常存在不准确的对齐,在长距离信息传播时会导致误差的进一步累积。为了减缓这个问题的影响,作者提出了信息重填机制(information-reffil)来进行特征细化(refinement)。如上图(a)所示,作者额外采用了一个特征提取器对关键帧及其相邻帧提取深层特征,并且将提取出来的特征与传播链路中的对齐特征进行融合。具体融合过程如下式所示:
其中E表示特征提取器,C为卷积操作,R是与之前一样的残差Blocks.
简单地理解这个过程,就是在特征传播过程中,对于关键帧,在进行特征对齐之后(即经过之前的S和W操作],额外引入一个深度特征进行融合。因为这个深度特征只考虑了当前帧与相邻帧,有利于矫正长期累积的对齐错误。并且,由于关键帧只是所有图像集中一个很小的子集,所以这个机制带来的额外计算量也比较小。
Coupled Propagation:在BasicVSR中采用的双向传播机制是独立地在两个方向上进行的(backward与forward),每条分支只能捕获到单向过来的信息。作者为了更好地利用序列中的信息,将两条分支进行相互联系,如图(b)所示,在进行forward传播时,额外引入backward分支中累积的信息(先backward再forward)。具体过程如下式所示:
引入这种操作使得在forward分支中的每一步都可以考虑到整个序列的信息,使得输出质量更高,并且没有带来额外的计算负担。
这里只列举部分实验结果和可视化对比效果,更多的消融实验与分析参照原文
下表展示了本文提出的方法与当前SOTA方案的对比(包括参数量、推理速度、效果等).
下面两张图展示了不同数据集上BasicVSR,IconVSR与其他方法的可视化对比结果。
本文发表于CVPR2021,是VSR领域一篇比较有代表性的论文,也开启了BasicVSR系列(包括后面的BasicVSR++、RealVSR等)。本文一作Kelvin C.K. Chan来自南洋理工大学,在图像超分和视频超分任务上都做了一些不错的工作,贴上其Google Scholar个人主页。
这篇文章没有涉及到太多网络模块的设计,更像是一篇梳理当前VSR的报告,通过对现有组件的结合搭建了一个简单有效的baseline,并基于其进行扩展,得到了IconVSR。它们在效果和性能上都表现得非常好。
上一篇:写作的“收益”超乎想象
下一篇:22年我在CSDN做到了名利兼收