17日前
MSN:動的マスク選択ネットワークによる効率的なオンライン動画インスタンスセグメンテーション
Vidit Goel, Jiachen Li, Shubhika Garg, Harsh Maheshwari, Humphrey Shi

要約
本研究では、動画内のオブジェクトをクラス分類とともにインスタンスレベルのセグメンテーションマスクとして自動生成し、動画全体にわたって追跡する新しい動画インスタンスセグメンテーション(Video Instance Segmentation: VIS)手法を提案する。本手法は、マスク選択ネットワーク(Mask Selection Network: MSN)を用いて、セグメンテーションブランチと伝搬ブランチから得られるマスクをオンラインで改善することで、マスク追跡過程におけるノイズの蓄積を抑制する。MSNの効果的な設計として、パッチベースの畳み込みニューラルネットワークを採用し、マスク間の微細な差異を正確に識別し、関連する複数のマスクの中からより優れたものを適切に選択可能にしている。さらに、時間的一貫性を活用し、動画シーケンスを前向きおよび逆向きの両方向で処理する後処理ステップを導入することで、追跡途中で失われたオブジェクトを回復する。本手法は、任意の動画オブジェクトセグメンテーション手法をVISタスクに適応可能である。2021年YouTube-VISチャレンジにおいて、本手法は49.1 mAPのスコアを達成し、30を超える国際チームの中での順位で3位を獲得した。実装コードは、https://github.com/SHI-Labs/Mask-Selection-Networks にて公開予定である。