
摘要
本文提出了一种基于深度学习的视频质量评估(Video Quality Assessment, VQA)框架,用于评估压缩后的用户生成内容(User-Generated Content, UGC)视频的质量。所提出的VQA框架由三个模块组成:特征提取模块、质量回归模块和质量池化模块。在特征提取模块中,我们融合卷积神经网络(Convolutional Neural Network, CNN)中间层的特征,构建最终的、具有质量感知能力的特征表示,从而使得模型能够充分挖掘从低层到高层的视觉信息。具体而言,对于全参考(Full Reference, FR)VQA模型,我们计算所有中间层提取的特征图在结构与纹理上的相似性,作为其特征表示;而对于无参考(No Reference, NR)VQA模型,则通过融合中间层特征得到的最终特征图的全局均值与标准差作为其特征表示。在质量回归模块中,采用全连接(Fully Connected, FC)层将质量感知特征映射为帧级质量得分。最后,引入一种受主观感知启发的时序池化策略,将帧级得分聚合为视频级质量得分。实验结果表明,所提出的模型在压缩UGC视频质量评估数据集(Compressed UGC VQA Database)上,性能优于现有的先进FR与NR VQA模型;同时,在真实场景下的UGC视频质量评估数据集(in-the-wild UGC VQA Databases)上也取得了优异的评估表现。