FAST-VQA:基于片段采样的高效端到端视频质量评估

当前的深度视频质量评估(VQA)方法在评估高分辨率视频时通常具有较高的计算开销,这一代价限制了其通过端到端训练学习更优视频质量相关表征的能力。现有方法通常采用简单的采样策略以降低计算成本,例如图像缩放和裁剪,但这些方法会明显破坏视频中的质量相关信息,因此并非学习高质量VQA表征的最优选择。因此,亟需设计一种能够有效保留视频质量信息的新采样机制。本文提出了一种网格小块采样(Grid Mini-patch Sampling, GMS)方法,该方法通过在原始分辨率下采样局部区域以保留局部质量信息,并利用均匀网格采样的小块(mini-patches)捕捉全局上下文关系,从而全面表征视频质量。这些采样得到的小块在时间维度上进行拼接与对齐,形成称为“片段”(fragments)的结构化输入。为进一步适配此类片段输入,我们构建了专为片段设计的片段注意力网络(Fragment Attention Network, FANet)。所提出的面向VQA的片段采样Transformer(FrAgment Sample Transformer for VQA, FAST-VQA)由片段与FANet共同构成,实现了高效且端到端的深度VQA建模,能够有效学习视频质量相关的表征。在1080P高分辨率视频上,FAST-VQA相较现有最先进方法在性能上提升了约10%,同时将浮点运算量(FLOPs)降低了99.5%。此外,新学习到的视频质量表征具备良好的可迁移性,可有效应用于较小规模的VQA数据集,显著提升其在这些场景下的性能表现。大量实验表明,FAST-VQA在多种分辨率输入下均表现出优异的性能,同时保持了极高的计算效率。相关代码已开源,地址为:https://github.com/timothyhtimothy/FAST-VQA。