11 天前

Patch-VQ：通过“补丁化”解决视频质量问题

Zhenqiang Ying, Maniratnam Mandal, Deepti Ghadiyaram, Alan Bovik

摘要

无参考（No-reference, NR）感知视频质量评估（Video Quality Assessment, VQA）是社交与流媒体应用领域一个复杂、尚未解决且至关重要的问题。为了有效监控和指导数十亿条共享的、通常存在缺陷的用户生成内容（User-Generated Content, UGC）的处理流程，亟需高效且准确的视频质量预测模型。然而，当前的NR模型在真实世界“野外”（in-the-wild）UGC视频数据上的预测能力仍存在显著局限。为推动该问题的进展，我们构建了迄今为止规模最大的主观视频质量数据集，包含39,000个真实世界中的失真视频片段，以及117,000个时空局部化的视频块（称为“v-patches”），并配有550万条人类感知质量标注。基于该数据集，我们提出了两种创新的NR-VQA模型：（a）一种基于局部到全局区域的NR-VQA架构（命名为PVQ），能够学习预测整体视频质量，并在3个UGC数据集上达到了当前最优性能；（b）首个实现时空视频质量映射的引擎（命名为PVQ Mapper），可实现感知失真在时空维度上的定位与可视化。在完成评审流程后，我们将立即公开发布该新数据库及相应的预测模型。