2ヶ月前

BATMAN: 動態外観近傍空間における双方向注意変換器を用いたビデオオブジェクトセグメンテーション

Ye Yu; Jialin Yuan; Gaurav Mittal; Li Fuxin; Mei Chen
BATMAN: 動態外観近傍空間における双方向注意変換器を用いたビデオオブジェクトセグメンテーション
要約

ビデオオブジェクトセグメンテーション(VOS)は、ビデオ理解の基礎的な技術です。トランスフォーマーを基にした手法は、半教師付きVOSにおいて著しい性能向上を示しています。しかし、既存の研究では、視覚的に類似した物体が互いに近接している場合のセグメンテーションに課題が残っています。本論文では、半教師付きVOS向けに新たな双方向注意トランスフォーマー「モーション-外観近傍空間における双方向注意トランスフォーマー」(BATMAN)を提案します。この手法は、新しい光学フロー補正モジュールにより、セグメンテーションマスクと光学フロー推定を融合して、物体内部の光学フローの滑らかさを向上させるとともに、物体境界でのノイズを低減します。その後、この補正された光学フローが我々の新規双方向注意機構で使用され、クエリフレームと参照フレーム間の対応関係を計算します。この際、モーションと外観双方を考慮した近傍双方向空間で対応関係が計算されます。広範な実験結果により、BATMANアーキテクチャの有効性が確認されており、4つの主要なVOSベンチマーク(Youtube-VOS 2019, Youtube-VOS 2018, DAVIS 2017Val/Testdev, DAVIS 2016)においてすべての既存の最先端手法を上回る性能(85.0%, 85.3%, 86.2%/82.2%, 92.5%)を達成しています。

BATMAN: 動態外観近傍空間における双方向注意変換器を用いたビデオオブジェクトセグメンテーション | 最新論文 | HyperAI超神経