11日前

ゼロショット動画オブジェクトセグメンテーションのためのモーションアテンション遷移

Tianfei Zhou, Shunzhou Wang, Yi Zhou, Yazhou Yao, Jianwu Li, Ling Shao
ゼロショット動画オブジェクトセグメンテーションのためのモーションアテンション遷移
要約

本稿では、ゼロショット動画オブジェクトセグメンテーションのための新たな手法として、運動情報を利用した空間時系列的オブジェクト表現の強化を可能にする「モーション・アテンション遷移ネットワーク(MATNet)」を提案する。本手法では、二重ストリームエンコーダ内に、非対称なアテンションブロックである「モーション・アテンション遷移(MAT)」を設計し、各畳み込み段階において外観特徴を運動に敏感な表現に変換する。これにより、エンコーダ内部に深く相互に絡み合う構造が実現され、オブジェクトの運動と外観の階層的かつ密接な相互作用が可能となる。これは従来の二重ストリームアーキテクチャと比較して優れている。従来手法は各ストリームで運動情報と外観情報を別々に処理するため、外観情報に過剰にフィットしやすく、一般化性能が低下する傾向がある。さらに、多段階エンコーダ特徴に対してコンパクトで識別力が高く、スケールに敏感な表現を得るためのブリッジネットワークを提案し、その出力をデコーダに供給することでセグメンテーション結果を生成する。DAVIS-16、FBMS、Youtube-Objectsの3つの難易度の高い公開ベンチマークにおける広範な実験結果から、本モデルが最先端手法と比較して優れた性能を発揮することが示された。

ゼロショット動画オブジェクトセグメンテーションのためのモーションアテンション遷移 | 最新論文 | HyperAI超神経