Command Palette
Search for a command to run...
ゼロショット動画オブジェクトセグメンテーションのためのモーション・アピアランス共同注意機構の学習
ゼロショット動画オブジェクトセグメンテーションのためのモーション・アピアランス共同注意機構の学習
Xiaoxing Zhang Shuo Wang Huchuan Lu Jinqing Qi Lu Zhang Shu Yang
概要
流れベースのゼロショット動画オブジェクトセグメンテーションにおいて、外観情報と運動情報の効果的な相互作用を実現し、複雑なシナリオに対応することは根本的な課題である。本論文では、外観情報と運動情報を統合的に活用するための「注意型マルチモーダル協調ネットワーク(AMC-Net)」を提案する。具体的には、AMC-Netは、マルチモーダル特徴から堅牢な情報を統合し、2段階にわたり各モーダル間の協調を促進する。まず、双方向エンコーダブランチ上に「マルチモーダルコアテンションゲート(MCG)」を導入する。このMCGは、ゲート関数を用いてマルチモーダル特徴の寄与をバランスさせるためのコアテンションスコアを定式化し、冗長かつ誤解を招く情報を抑制する。次に、視覚的・運動的特徴間の時空間的対応関係を統合することで、前景オブジェクトの特徴を強調する「運動補正モジュール(MCM)」を提案する。このMCMは、視覚-運動アテンション機構を備えている。多数の公開ベンチマークデータセット(3つの挑戦的な公開データセット)における広範な実験により、少ないデータでの学習でも、既存の最先端手法と比較して優れた性能を発揮することが確認された。