圧縮動画に対する参照オブジェクトセグメンテーションのためのマルチアテンションネットワーク

参照動画オブジェクトセグメンテーションは、与えられた言語表現によって指されるオブジェクトをセグメンテーションするタスクである。従来の手法は、セグメンテーションを行う前に圧縮動画ビットストリームをRGBフレームに復号する必要があるため、計算量およびストレージ要件が増加し、結果として推論速度が低下するという問題がある。これは、自動運転車やドローンなど、計算リソースが制限された実世界の環境における応用を阻害する要因となる。本稿では、この課題を軽減するために、圧縮動画の元のデータストリーム上で参照オブジェクトセグメンテーションを実施するアプローチを提案する。このタスクの本質的な難しさに加え、圧縮動画から判別性の高い表現を抽出することは極めて困難である。これを解決するために、双パス・双注意力モジュールとクエリベースのクロスモーダルTransformerモジュールから構成されるマルチアテンションネットワークを提案する。具体的には、双パス・双注意力モジュールは、Iフレーム、モーションベクトル、残差という3つのモダリティから圧縮データから効果的な表現を抽出するように設計されている。一方、クエリベースのクロスモーダルTransformerは、言語モダリティと視覚モダリティの相関関係をまずモデル化し、その後融合されたマルチモーダル特徴を用いて、オブジェクトクエリがコンテンツに適応した動的カーネルを生成し、最終的なセグメンテーションマスクを予測する。従来の手法とは異なり、本手法では1つのカーネルのみを学習することで、既存手法に見られる複雑なマスクマッチングの後処理を不要にしている。3つの挑戦的なデータセットにおける広範な実験結果から、RGBデータ処理を目的とした複数の最先端手法と比較して、本手法の有効性が示された。ソースコードは以下のURLで公開されている:https://github.com/DexiangHong/MANet。