
摘要
无参考(No-reference, NR)感知视频质量评估(Video Quality Assessment, VQA)是社交与流媒体应用领域一个复杂、尚未解决且至关重要的问题。为了有效监控和指导数十亿条共享的、通常存在缺陷的用户生成内容(User-Generated Content, UGC)的处理流程,亟需高效且准确的视频质量预测模型。然而,当前的NR模型在真实世界“野外”(in-the-wild)UGC视频数据上的预测能力仍存在显著局限。为推动该问题的进展,我们构建了迄今为止规模最大的主观视频质量数据集,包含39,000个真实世界中的失真视频片段,以及117,000个时空局部化的视频块(称为“v-patches”),并配有550万条人类感知质量标注。基于该数据集,我们提出了两种创新的NR-VQA模型:(a)一种基于局部到全局区域的NR-VQA架构(命名为PVQ),能够学习预测整体视频质量,并在3个UGC数据集上达到了当前最优性能;(b)首个实现时空视频质量映射的引擎(命名为PVQ Mapper),可实现感知失真在时空维度上的定位与可视化。在完成评审流程后,我们将立即公开发布该新数据库及相应的预测模型。