
要約
本論文では、挑戦的な半教師付きビデオオブジェクトセグメンテーションの問題を解決するための埋め込み学習の原理について調査しています。従来の手法が前景オブジェクトからのピクセルのみを使用して埋め込み学習を行うのとは異なり、背景も同様に扱うべきであると考え、Foreground-Background Integration(前景背景統合)による協調的なビデオオブジェクトセグメンテーション(CFBI)アプローチを提案します。私たちのCFBIは、対象となる前景オブジェクトとその対応する背景から特徴量埋め込みを対照的にするよう暗黙的に制約を課し、これによりセグメンテーション結果を向上させます。前景と背景からの特徴量埋め込みを使用することで、CFBIは参照シーケンスと予測シーケンスとの間でピクセルレベルおよびインスタンスレベルでのマッチング処理を行い、さまざまなオブジェクトサイズに対して堅牢性を持つように設計されています。DAVIS 2016、DAVIS 2017、YouTube-VOSという3つの人気ベンチマークデータセットにおいて広範な実験を行った結果、CFBIはそれぞれ89.4%、81.9%、81.4%(J$F)の性能を達成し、他の最先端手法を上回っています。コード: https://github.com/z-x-yang/CFBI.