
摘要
视频质量是视频服务提供商关注的核心问题。近年来,基于深度卷积神经网络(CNN)的视频质量评估(VQA)技术发展迅速。尽管现有研究尝试将人类视觉系统(HVS)的相关知识引入VQA任务,但仍存在诸多局限,难以充分挖掘HVS的潜力,主要表现为:对HVS的建模仅依赖少数特征,且各特征之间的关联关系不够充分。为克服上述局限,本文重新审视了HVS的五个代表性特征,并进一步重构了这些特征之间的内在联系。基于重构后的HVS模型,本文提出了一种无参考视频质量评估框架——HVS-5M(基于五模块模拟HVS五特征的无参考VQA框架)。该框架采用域融合设计范式,并结合先进的网络结构。在空间域方面,视觉显著性模块采用SAMNet生成显著性图;随后,内容依赖性模块与边缘掩码模块分别利用ConvNeXt提取空间特征,并通过显著性图对特征进行注意力加权,以突出人类可能关注的区域。在时间域方面,为补充静态空间特征,运动感知模块采用SlowFast网络提取动态时间特征;同时,时间滞留模块引入TempHyst模型,模拟人类的记忆机制,综合融合空间与时间域特征,最终输出全面的视频质量评分。大量实验结果表明,所提出的HVS-5M在多个公开数据集上均优于当前最先进的VQA方法。消融实验进一步验证了框架中各模块的有效性,证明了其设计的合理性与必要性。