DVIS: 分離型ビデオインスタンスセグメンテーションフレームワーク

ビデオインスタンスセグメンテーション(VIS)は、自動運転やビデオ編集など多様な応用を持つ重要なタスクです。現行の手法は、実世界の複雑で長いビデオに対してしばしば性能が低下する傾向があります。これは主に2つの要因によるものです。第一に、オフライン手法は緊密に結合されたモデリングパラダイムに制約されており、すべてのフレームを同等に扱い、隣接するフレーム間の相互依存関係を無視しています。その結果、長期的な時間的整合性において過度のノイズが導入されることがあります。第二に、オンライン手法は時間的情報の利用が不十分であるという問題を抱えています。これらの課題に対処するために、VISを3つの独立したサブタスク:セグメンテーション、トラッキング、およびリファインメントに分割する非結合戦略を提案します。非結合戦略の効果性は2つの重要な要素に依存しています:1) トラッキング中にフレームごとのアソシエーションを通じて正確な長期的整合性結果を得ること、2) 上記の正確な整合性結果に基づいて時間的情報を効果的に利用することです。私たちは新しい参照トラッカーと時間的リファイナーを導入し、Decoupled VIS フレームワーク(DVIS)を構築しました。DVISはVISとVPSにおいて新たな最先端(SOTA)性能を達成しており、OVISおよびVIPSegデータセット上で現在のSOTA手法よりも7.3 APおよび9.6 VPQ高い性能を示しています。これらのデータセットは最も困難で現実的なベンチマークとなっています。さらに、非結合戦略のおかげで、参照トラッカーと時間的リファイナーは非常に軽量(セグメンターのFLOPsの1.69%のみ)であり、11Gメモリーの単一GPU上で効率的な学習と推論が可能です。コードは \href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS} から入手できます。