
要約
ユーザー生成コンテンツ(UGC)がユーザー間および共有プラットフォーム間で急速に増加するにつれて、実世界でのビデオ品質評価の必要性がますます明確になっています。UGCは通常、消費者向けデバイスを使用して取得され、最終ユーザーに到達する前に複数回の圧縮(トランスコーディング)を経験します。したがって、元のコンテンツを基準として使用する従来の品質指標は適切ではありません。本論文では、ReLaX-VQAという新しいノーリファレンス・ビデオ品質評価(NR-VQA)モデルを提案します。このモデルは、多様なビデオコンテンツの品質を評価するために、元の非圧縮ビデオを参照せずに課題に対処することを目指しています。ReLaX-VQAはフレーム差分を使用して、空間的な特徴と時間的な断片を選択的に抽出し、サンプリングされたフレームに関連する異なる表現を用いて近接フレームの空間的および時間的な変動をより正確に捉えます。さらに、モデルは深層ニューラルネットワーク特徴量から残差ネットワークとビジョントランスフォーマーの層積技術を用いて抽象化を強化します。4つのUGCデータセットにおける広範なテストにより、ReLaX-VQAが既存のNR-VQA手法よりも一貫して優れていることが示されました。平均SRCCは0.8658、PLCCは0.8873を達成しました。オープンソースコードと学習済みモデルは、https://github.com/xinyiW915/ReLaX-VQA で提供されており、これによりNR-VQAに関するさらなる研究や応用が促進されます。