
参照動画オブジェクトセグメンテーション(R-VOS)は、動画の全フレームにおいて言語表現によって指された対象オブジェクトをセグメンテーションすることを目的とする、近年注目されているクロスモーダルタスクである。本研究では、Transformerを基盤としたシンプルかつ統一的なフレームワークであるReferFormerを提案する。本手法は、言語をクエリとして扱い、直接動画フレーム内の最も関連性の高い領域に注目する。具体的には、言語に条件付けられた少数のオブジェクトクエリをTransformerの入力として導入する。このアプローチにより、すべてのクエリは参照対象のオブジェクトのみを検出することを義務付けられる。これらのクエリは最終的に動的なカーネルに変換され、重要なオブジェクトレベルの情報を捉え、特徴マップからセグメンテーションマスクを生成するための畳み込みフィルタとして機能する。オブジェクトトラッキングは、フレーム間で対応するクエリを連結することで自然に実現される。このメカニズムにより、処理パイプラインが大幅に簡素化され、エンドツーエンドのフレームワークは従来の手法とは著しく異なる。Ref-Youtube-VOS、Ref-DAVIS17、A2D-Sentences、JHMDB-Sentencesの4つのベンチマーク上で広範な実験を行った結果、ReferFormerの有効性が確認された。Ref-Youtube-VOSにおいて、ResNet-50をバックボーンとして用いた場合、ベルス・アンド・ウィスルズを一切使用せずに55.6J&Fを達成し、従来の最先端手法を8.4ポイント上回った。さらに、強力なSwin-Largeバックボーンを用いた場合、すべての既存手法の中で最高のJ&F(64.2)を達成した。また、A2D-SentencesおよびJHMDB-Sentencesにおいては、それぞれ55.0 mAPおよび43.7 mAPという優れた結果を示し、従来手法を大きく上回った。コードは公開されており、GitHubにて入手可能である:https://github.com/wjn922/ReferFormer。