11日前

効率的なエンドツーエンド動画品質評価のための近傍代表サンプリング

Haoning Wu, Chaofeng Chen, Liang Liao, Jingwen Hou, Wenxiu Sun, Qiong Yan, Jinwei Gu, Weisi Lin
効率的なエンドツーエンド動画品質評価のための近傍代表サンプリング
要約

高解像度の実世界映像の普及は、深層学習を用いた動画品質評価(VQA)において、効率性と精度の間にジレンマをもたらしている。一方で、元の解像度を維持すると計算コストが著しく増加し、実用上受け入れがたいものとなる。他方、従来の手法であるリサイズやクロッピングは、詳細情報やコンテンツの喪失を引き起こすため、元映像の品質を変化させ、結果として品質評価に悪影響を及ぼす。本研究では、人間の視覚系における空間時間的冗長性および視覚符号化理論に関する知見に基づき、近傍領域における品質情報が通常は類似していることを見出し、効果的な品質感受性を持つ近傍代表サンプル設計の可能性を考察した。本研究では、空間時間的グリッドを用いたミニキューブサンプリング(St-GMS)という統一的な枠組みを提案し、新たな種類のサンプルである「フラグメント」を生成する。まず、フル解像度映像を事前に定義された空間時間的グリッドに基づいてミニキューブに分割し、時間的に整合された品質代表サンプルを抽出することで、フラグメントを構成する。これらのフラグメントは、VQAの入力として用いられる。さらに、フラグメントに特化したネットワークアーキテクチャとして、フラグメント注意力ネットワーク(FANet)を設計した。フラグメントとFANetを組み合わせることで、提案手法である効率的なエンドツーエンド型FAST-VQAおよびFasterVQAは、既存手法と比較してすべてのVQAベンチマークで顕著な性能向上を達成しつつ、現在の最先端手法と比較してわずか1/1612のFLOPs(浮動小数点演算量)で実行可能である。コード、モデル、デモは、https://github.com/timothyhtimothy/FAST-VQA-and-FasterVQA にて公開されている。