DisCoVQA:時系列歪み・コンテンツ変換器を用いた動画品質評価

既存の研究では、フレーム間の時間的関係性およびそれが動画品質評価(VQA)に与える影響について十分に検討されていない。これらの時間的関係性は、動画品質に影響を与える二つの重要な効果をもたらす。第一に、シャッタリングやフレッシャー、急激なシーン遷移といった時間的変動は時間的歪みを引き起こし、品質のさらなる低下をもたらす一方で、意味のある出来事に関連する他の変動はそうした影響を及ぼさない。第二に、人間の視覚系は、コンテンツが異なるフレームに対して異なる注意を払う傾向があるため、各フレームの全体的な動画品質に対する重要性も異なってくる。本研究では、Transformerの優れた時系列モデリング能力を活かし、この二つの課題に対処できる新しい効果的なTransformerベースのVQA手法を提案する。時間的変動をより正確に区別し、時間的歪みを適切に捉えるために、Transformerベースの空間時間的歪み抽出モジュール(STDE)を設計した。また、時間的品質への注目度の違いに対処するため、エンコーダ・デコーダ構造に類似した時間的コンテンツTransformer(TCT)を提案した。さらに、TCTの入力長を短縮し、学習効果と効率を向上させるために、特徴量に対する時間的サンプリングを導入した。STDEとTCTを組み合わせた、本研究で提案する「時間的歪み-コンテンツTransformer(DisCoVQA)」は、追加の事前学習データセットを一切使用せずに、複数のVQAベンチマークで最先端の性能を達成し、従来手法と比較して最大10%の高い汎化能力を示した。また、モデルの各構成要素の有効性を検証するため、広範なアブレーション実験を実施し、可視化を通じて提案モジュールが時間的課題を意図通りにモデリングできていることを確認した。コードおよび事前学習済み重みは後日公開予定である。