6ヶ月前

概要

現在の深層動画品質評価（VQA）手法は、高解像度動画を評価する際、計算コストが非常に高くなる傾向にあり、これがエンドツーエンド学習によるより優れた動画品質関連表現の学習を妨げている。既存の手法は計算コストを低減するために単純なサンプリング戦略（例えばリサイズやクロッピング）を採用しているが、これらは動画内の品質関連情報を著しく損なうため、VQAにおける良好な表現学習には最適ではない。したがって、品質情報を保持しつつ効率的なサンプリングスキームを設計する必要がある。本論文では、局所的な品質情報を生解像度でパッチをサンプリングすることで捉え、均等なグリッド上でサンプリングされたミニパッチを用いて文脈的関係によりグローバルな品質情報をカバーする「グリッドミニパッチサンプリング（Grid Mini-patch Sampling, GMS）」を提案する。これらのミニパッチは時系列的に接合・整列され、「フラグメント」として扱われる。さらに、フラグメントを入力として扱えるように設計された「フラグメントアテンションネットワーク（Fragment Attention Network, FANet）」を構築する。フラグメントとFANetを統合した、本研究で提案するVQA用フラグメントサンプリング変換器（FrAgment Sample Transformer for VQA, FAST-VQA）は、効率的なエンドツーエンド深層VQAを実現し、有効な動画品質関連表現を学習可能となる。1080Pの高解像度動画において、最先端の精度を約10%向上させつつ、FLOPsを99.5%削減する。また、新たに学習された動画品質関連表現は、小さなVQAデータセットへも転移可能であり、その環境下での性能向上をもたらす。広範な実験により、FAST-VQAはさまざまな解像度の入力に対しても優れた性能を発揮しつつ、高い効率性を維持していることが示された。本研究のコードは、https://github.com/timothyhtimothy/FAST-VQA にて公開している。

ソースPDF