2ヶ月前
ビデオ注目予測のための強化された時空間アライメントネットワークの使用
Jin Chen; Huihui Song; Kaihua Zhang; Bo Liu; Qingshan Liu

要約
異なるフレーム間の多様な動きにより、正確なビデオ注目度予測(VSP)のために効果的な時空間表現を学習することは非常に困難です。この問題に対処するために、VSPに特化した効果的な時空間特徴アライメントネットワークを開発しました。主に2つの重要なサブネットワークから構成されており、これらはマルチスケール変形畳み込みアライメントネットワーク(MDAN)と双方向畳み込み長短期記憶(Bi-ConvLSTM)ネットワークです。MDANは、近接するフレームの特徴を参照フレームに対して粗い段階から細かい段階へと順次アライメントすることを学習します。これにより、さまざまな動きを適切に処理できます。具体的には、MDANはピラミダルな特徴階層構造を持ち、まず変形畳み込み(Dconv)を使用して低解像度の特徴をフレーム間でアライメントし、その後、アライメントされた特徴を集合させて高解像度の特徴をアライメントします。上位から下位へと進行的に特徴を強化することで、より精度の高い表現が得られます。MDANの出力はその後Bi-ConvLSTMに入力され、さらなる強化が行われます。Bi-ConvLSTMは前向きおよび後ろ向きの時間方向に有用な長期的な時間情報を捉え、複雑なシーン変換における注意方向シフト予測を効果的にガイドします。最後に、強化された特徴がデコードされ、予測された注目度マップが生成されます。提案されたモデルはエンドツーエンドで訓練され、複雑な後処理なしで動作します。4つのVSPベンチマークデータセットでの広範な評価により、提案手法が最先端手法に対して優れた性能を達成していることが示されました。ソースコードとすべての結果は公開される予定です。