HVSを再検討する:包括的な動画品質評価フレームワーク

動画品質は、動画サービス提供者にとって重要な課題である。近年、深層畳み込みニューラルネットワーク(CNN)を活用した動画品質評価(VQA)技術が急速に発展している。既存の研究では、人間の視覚システム(HVS)の知識をVQAに導入しようとする試みがなされているが、依然としてHVSの完全な活用を妨げる限界が存在する。具体的には、特徴の一部しかモデル化されておらず、それらの特徴間の関係性が不十分である点が挙げられる。こうした課題を克服するため、本研究では人間の視覚システムを5つの代表的な特徴に基づいて再検討し、それらの相互関係を再構成した。この再検討されたHVSを基盤として、「HVS-5M」と呼ばれる非参照型VQAフレームワーク(NRVQAフレームワーク)を提案する。本フレームワークは、高度なネットワーク構造を備えたドメイン融合設計パラダイムに基づいて動作する。空間領域では、視覚的注目度モジュールがSAMNetを用いて注目マップを生成し、その後、コンテンツ依存性モジュールとエッジマスキングモジュールがそれぞれConvNeXtを用いて空間特徴を抽出する。この際、注目マップによる注意重み付けを施すことで、人間が関心を寄せる領域を強調する。一方、時間領域では、静的な空間特徴を補完するため、動き知覚モジュールがSlowFastを用いて動的な時間特徴を取得する。さらに、時間的ヒステリシスモジュールはTempHystを用いて人間の記憶機構を模倣し、空間領域と時間領域から得られた特徴を統合的に融合して、総合的な品質スコアを評価する。広範な実験結果から、本研究で提案するHVS-5Mは、最先端のVQA手法を上回る性能を示した。また、アブレーションスタディにより、各モジュールが提案フレームワークに対する有効性が確認された。