17日前

高品質なビデオインスタンスセグメンテーションのためのVideo Mask Transfiner

Lei Ke, Henghui Ding, Martin Danelljan, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu

要約

ビデオインスタンスセグメンテーション（VIS）は近年著しい進展を遂げているが、現行の手法は高品質なマスク、特に正確な境界詳細を予測する点で困難を抱えている。さらに、予測されたセグメンテーション結果は時間的に不安定であり、変動が生じる傾向にあることから、時間的一貫性に関する情報が無視されているか、十分に活用されていないことが示唆される。本論文では、これらの課題に取り組み、VISにおいてより詳細かつ時間的に安定したマスク予測を実現することを目的とする。まず、高効率な動画変換器構造を活用して細粒度の高解像度特徴を効果的に活用できる「Video Mask Transfiner（VMT）」という新しい手法を提案する。VMTは、動画セグメント内の各トラックレットにおける誤りを起こしやすいスパースな時空間領域を検出し、局所的およびインスタンスレベルの手がかりを用いてその領域を精緻化する。第二に、一般的に用いられるYouTube-VISデータセットの粗い境界アノテーションが、性能向上の主要な制約要因であることを明らかにした。この問題に対処するため、VMTアーキテクチャを基盤として、反復的な学習と自己修正を組み合わせた自動アノテーション精緻化手法を設計した。高品質なマスク予測を評価するためのベンチマークとして、手動で再アノテーションされたテストセットと、自動的に精緻化された訓練データから構成される「HQ-YTVIS」データセットを提案する。本手法であるVMTは、HQ-YTVISおよびYouTube-VIS、OVIS、BDD100K MOTSといった主要なベンチマークにおいて、最新の最先端手法と比較して評価された。実験結果は、複雑かつ動的なオブジェクトのセグメンテーションにおいて、本手法が正確な細部を捉える能力を有し、高い有効性と効果性を示していることを明確に示している。