12日前

MATNet:ゼロショット動画オブジェクトセグメンテーションのためのモーションアテンション遷移ネットワーク

{Ran; Shen, Shunzhou; Tao, Jianwu; Wang, Tianfei; Li, Zhou, Jianbing}
要約

本稿では、ゼロショット動画オブジェクトセグメンテーション(ZVOS)を対象に、新しいエンドツーエンド学習型ニューラルネットワーク、すなわちMATNetを提案する。人間の視覚的注意行動に着想を得て、MATNetは運動情報(motion cues)をボトムアップ信号として用い、オブジェクトの外観認識をガイドする。この目的を達成するため、二本のストリームからなるエンコーダネットワーク内に、運動に注意を向ける遷移機構(Motion-Attentive Transition: MAT)と呼ばれる非対称なアテンションブロックを導入し、まず動いている領域を特定した後、外観学習に注目することで、オブジェクトの全体像を捉える。MATを異なる畳み込み層に配置することで、エンコーダは深くインタリーブされた構造となり、オブジェクトの外観と運動の間で階層的な密接な相互作用が可能になる。この生物学的にインスパイアされた設計は、従来の二本のストリーム構造(運動と外観を別々のストリームで処理)に比べ、顕著な優位性を示す。特に、外観に過剰に適合(overfitting)する問題を緩和する効果が確認された。さらに、マルチスケールな時空間特徴をよりコンパクトで判別性が高く、スケールに敏感な表現に調整するためのブリッジネットワークを導入し、その出力を境界を意識したデコーダネットワークに供給することで、明確な境界を持つ高精度なセグメンテーションを実現している。本手法は、DAVIS16、DAVIS17、FBMS、YouTube-Objectsの4つの困難な公開ベンチマークにおいて、広範な定量的・定性的実験を実施した結果、現在の最先端ZVOS手法と比較して優れた性能を達成した。さらに、本研究で提案する時空間学習フレームワークの汎化能力を検証するため、関連する別のタスクである動的視覚的注意予測(Dynamic Visual Attention Prediction: DVAP)にMATNetを拡張した。Hollywood-2およびUCF-Sportsという2つの代表的なデータセット上での実験により、本モデルの優位性がさらに裏付けられた。

MATNet:ゼロショット動画オブジェクトセグメンテーションのためのモーションアテンション遷移ネットワーク | 最新論文 | HyperAI超神経