4ヶ月前
地域認識付き深層運動モデルを用いた動画オブジェクトセグメンテーション
Bo Miao; Mohammed Bennamoun; Yongsheng Gao; Ajmal Mian

要約
現在の半教師付きビデオオブジェクトセグメンテーション(VOS)手法は、通常、1フレームの全特徴を用いてオブジェクトマスクを予測し、メモリを更新する。これにより、大量の冗長な計算が発生する。冗長性を削減するために、我々は効率的なオブジェクトセグメンテーションとメモリ保存のために関心領域(ROIs)を予測する地域認識型ビデオオブジェクトセグメンテーション(RAVOS)アプローチを提案する。RAVOSには、次のフレームでのROIsを予測する高速なオブジェクト運動追跡器が含まれている。効率的なセグメンテーションのために、ROIsに基づいてオブジェクト特徴を抽出し、オブジェクトレベルのセグメンテーションを行うためのオブジェクトデコーダーが設計されている。効率的なメモリ保存のために、2つのフレーム間のオブジェクトの運動パス内の特徴を記憶することで冗長なコンテキストを取り除く運動パスメモリを提案する。さらに、RAVOSとともに、遮蔽状況下でのVOSモデルの性能評価を行う大規模データセットOVOSも提案する。DAVISおよびYouTube-VOSベンチマークと新しいOVOSデータセットでの評価結果は、当手法が大幅に高速な推論時間で最先端の性能を達成していることを示している。例えば、DAVISでは42 FPSで86.1 J&Fスコア、YouTube-VOSでは23 FPSで84.4 J&Fスコアとなっている。