6ヶ月前

概要

参照なし（No-reference, NR）の視覚的動画品質評価（VQA）は、社会的・ストリーミングメディアアプリケーションにおいて、複雑かつ未解決でありながら極めて重要な課題である。数十億もの共有され、しばしば不完全なユーザー生成コンテンツ（UGC）の処理を監視・最適化するためには、効率的かつ高精度な動画品質予測モデルが不可欠である。しかし、現行のNRモデルは、現実世界の「野生状態」（in-the-wild）のUGC動画データに対する予測能力に限界がある。この課題の進展を図るため、本研究では、これまでにない規模の主観的動画品質データセットを構築した。このデータセットには、39,000本の現実世界における歪みを含む動画と、117,000個の空間時間的に局所化された動画断片（「v-patches」）ならびに550万件のヒトの知覚品質アノテーションが含まれている。このデータセットを基に、以下の2つの独自のNR-VQAモデルを構築した。（a）局所から全体へと展開する領域ベースのNR-VQAアーキテクチャ（PVQと命名）であり、グローバルな動画品質を予測する能力を学習し、3つのUGCデータセットにおいて最先端の性能を達成している。（b）空間的・時間的に知覚的歪みを局所化・可視化できる、世界初の空間時間動画品質マッピングエンジン（PVQ Mapperと命名）。本研究では、レビュー処理を経た後、新たに構築したデータベースおよび予測モデルを即時に公開する予定である。

ソースPDF