Command Palette
Search for a command to run...
プロポーズ・リダクション枠組みを用いたビデオインスタンスセグメンテーション
プロポーズ・リダクション枠組みを用いたビデオインスタンスセグメンテーション
Huaijia Lin Ruizheng Wu Shu Liu Jiangbo Lu Jiaya Jia
概要
ビデオインスタンスセグメンテーション(VIS)は、動画の各フレームにおいて事前に定義されたクラスのすべてのインスタンスをセグメンテーションし、それらを関連付けることを目的としています。従来の手法は、通常、フレームまたはクリップごとにセグメンテーションを実行した後、追跡やマッチングによって不完全な結果を統合するというアプローチを採用しています。しかし、この統合ステップでは誤差の累積が生じる可能性があります。これに対して、本研究では単一のステップで入力動画の完全なシーケンスを生成する新しいアーキテクチャ——「Propose-Reduce」を提案します。さらに、既存の画像レベルインスタンスセグメンテーションネットワークに長期的なシーケンス伝播ヘッドを追加し、長期間にわたるセグメンテーションの継続性を実現しました。提案フレームワークの堅牢性と高いリコール率を確保するため、同一インスタンスに対して複数のシーケンスを提案し、重複するシーケンスを削減する処理を実施しています。本手法は、代表的な2つのベンチマークデータセットにおいて最先端の性能を達成しました。YouTube-VISの検証セットではAPが47.6%、DAVIS-UVOSの検証セットではJ&Fが70.4%を達成しました。コードは以下のURLから公開されています:https://github.com/dvlab-research/ProposeReduce。