MPG-SAM 2: マスク事前情報とグローバルコンテキストを用いたSAM 2の適応による指し示しビデオオブジェクトセグメンテーション

参照動画オブジェクトセグメンテーション(RVOS)は、テキスト記述に従って動画内のオブジェクトをセグメンテーションすることを目指しており、これには多様なモーダル情報の統合と時間的動態の認識が必要です。Segment Anything Model 2 (SAM 2) は、さまざまな動画セグメンテーションタスクにおいて優れた効果を示しています。しかし、そのオフラインRVOSへの応用は、テキストを効果的なプロンプトに翻訳する難しさと全体的なコンテクスト認識の欠如によって課題となっています。本論文では、これらの課題に対処するための新しいRVOSフレームワークであるMPG-SAM 2を提案します。具体的には、MPG-SAM 2は統一された多様なモーダルエンコーダーを使用して、動画とテキストの特徴を共同でエンコードし、意味的に整合性のある動画とテキストの埋め込みおよび多様なモーダルクラストークンを生成します。マスク事前生成器は、動画の埋め込みとクラストークンを利用して目標オブジェクトと全体的なコンテクストの疑似マスクを作成します。これらのマスクは、密なプロンプトとしてプロンプトエンコーダーに入力され、多様なモーダルクラストークンが疎なプロンプトとして使用されてSAM 2向けの正確なプロンプトを生成します。オンラインSAM 2に全体的な視点を提供するために、階層的な全体-歴史アグリゲーターを導入しました。これにより、SAM 2はピクセルレベルとオブジェクトレベルの両方で目標オブジェクトの全体的かつ歴史的情報を集約し、目標表現と時間的一貫性を向上させることができます。複数のRVOSベンチマークにおける広範な実験により、MPG-SAM 2の優越性および提案したモジュールの有効性が示されています。