11 天前

DisCoVQA:用于视频质量评估的时间扭曲-内容Transformer

Haoning Wu, Chaofeng Chen, Liang Liao, Jingwen Hou, Wenxiu Sun, Qiong Yan, Weisi Lin
DisCoVQA:用于视频质量评估的时间扭曲-内容Transformer
摘要

现有研究对视频帧之间的时间关系及其对视频质量评估(Video Quality Assessment, VQA)的影响仍缺乏深入探讨。这些时间关系引发了视频质量的两类重要影响:其一,某些时间域变化(如抖动、闪烁以及突兀的场景切换)会引起时间失真,导致额外的质量退化;而另一些变化(如与有意义事件相关的时间动态)则不会造成类似影响。其二,人类视觉系统对不同内容的帧往往表现出不同的注意力分配,从而使得各帧在整体视频质量感知中具有不同的权重。基于Transformer模型在时间序列建模方面的突出能力,本文提出一种新颖且高效的基于Transformer的VQA方法,以应对上述两个核心挑战。为更有效地区分不同类型的时间变化,进而准确捕捉时间失真,我们设计了一个基于Transformer的时空失真提取模块(Spatial-Temporal Distortion Extraction, STDE)。针对时间质量注意力问题,我们进一步提出了编码器-解码器结构的时序内容Transformer(Temporal Content Transformer, TCT)。此外,为降低TCT模块的输入序列长度,提升其学习效率与计算性能,我们引入了特征层面的时间采样策略。所提出的“时空失真-内容Transformer视频质量评估模型”(DisCoVQA),由STDE与TCT模块协同构成,在多个主流VQA基准测试中取得了当前最优性能,且无需依赖任何额外的预训练数据集。相较于现有方法,其泛化能力提升最高达10%。我们还进行了广泛的消融实验,验证了模型各组成部分的有效性,并通过可视化分析证明了所提模块在建模时间相关失真与注意力机制方面的设计意图得以实现。相关代码与预训练权重将于后续公开发布。