
要約
最近、Transformerを基盤とする手法は、動画インスタンスセグメンテーション(VIS)において優れた成果を上げている。しかし、これらの高性能な手法の多くは、動画全体を一度に処理してインスタンスマスクの時系列体積を予測するオフライン方式で動作しており、UVOやOVISといった新しい挑戦的なVISデータセットに見られる長時間動画に対応できない。本研究では、YouTube-VIS 2019ベンチマークにおいてトップクラスのオフライン手法と同等の性能を発揮するとともに、UVOおよびOVISでは著しく優れた結果を達成する、完全なオンライン型Transformerベースの動画インスタンスセグメンテーションモデルを提案する。この手法は「ロバスト・オンライン・ビデオセグメンテーション(ROVIS)」と名付けられ、Mask2Formerという画像インスタンスセグメンテーションモデルに、TrackFormer手法が多対象追跡のために導入した「トラッククエリ(track queries)」という軽量なトラッキング情報伝達機構を組み合わせている。本研究では、十分に強力な画像セグメンテーションアーキテクチャと組み合わせることで、トラッククエリが短時間動画に制限されることなく、優れた精度を発揮できることを示している。