
要約
本論文では、VOS(Video Object Segmentation)向けの統一されたエンドツーエンド学習可能な時空間CNNモデルを提案します。このモデルは、時間的一貫性ブランチと空間セグメンテーションブランチの2つのブランチから構成されています。特に、時間的一貫性ブランチは無ラベルのビデオデータから敵対的な方法で事前学習され、ビデオシーケンスの動的な外観と運動の手がかりを捉えて物体セグメンテーションをガイドするように設計されています。空間セグメンテーションブランチは、学習した外観と運動の手がかりに基づいて物体を正確にセグメントすることに焦点を当てています。正確なセグメンテーション結果を得るため、粗い段階から細かい段階へと順次適用される注意モジュールを多尺度特徴マップに対して設計し、それらを連結して最終予測を生成します。これにより、空間セグメンテーションブランチは徐々に物体領域に集中することが強制されます。これらの2つのブランチは、エンドツーエンドでビデオセグメンテーションシーケンスに対して共同ファインチューニングされます。DAVIS-2016, DAVIS-2017 および Youtube-Object の3つの課題のあるデータセット上で複数の実験を行った結果、当手法が最先端技術に対して優れた性能を達成していることを示しています。コードは https://github.com/longyin880815/STCNN で入手可能です。