2ヶ月前
マスクなしビデオインスタンスセグメンテーション
Lei Ke; Martin Danelljan; Henghui Ding; Yu-Wing Tai; Chi-Keung Tang; Fisher Yu

要約
最近のビデオインスタンスセグメンテーション(VIS)の進歩は、より深いかつデータを大量に必要とするトランスフォーマーベースのモデルの使用によって大きく推進されています。しかし、ビデオマスクのアノテーションは手間がかかるだけでなく費用も高いため、既存のVISデータセットの規模と多様性が制限されています。本研究では、マスクアノテーションを必要としない方法を開発することを目指しています。私たちはMaskFreeVISを提案し、オブジェクト状態に対してバウンディングボックスアノテーションのみを使用しながら、競争力のあるVIS性能を達成しました。ビデオ内の豊富な時間的なマスク一貫性制約を利用するために、Temporal KNN-patch Loss(TK-Loss)を導入しました。これにより、ラベルなしで強力なマスク監督が可能になります。TK-Lossは効率的なパッチマッチングステップに続きK-最近傍選択を行い、フレーム間での一対多のマッチングを見つけ出します。その後、見つけたマッチングに対して一貫性損失が課されます。私たちのマスクフリー目的関数は実装が簡単で、学習可能なパラメータを持たず、計算効率も高い一方で、例えば最先端の光学フローを使用して時間的なマスク一貫性を強制する基準モデルよりも優れた性能を示しています。MaskFreeVISの有効性をYouTube-VIS 2019/2021、OVISおよびBDD100K MOTSベンチマークで検証しました。結果は明確に示しており、完全教師ありと弱教師ありVIS性能間のギャップを大幅に縮小しています。当該コードおよび学習済みモデルはhttps://github.com/SysCV/MaskFreeVisにて公開されています。