2ヶ月前
GroPrompt: Referring Video Object Segmentationのための効率的なGrounded PromptingとAdaptation
Ci-Siang Lin; I-Jieh Liu; Min-Hung Chen; Chien-Yi Wang; Sifei Liu; Yu-Chiang Frank Wang

要約
参照動画オブジェクトセグメンテーション(RVOS)は、クエリ文で指定されたオブジェクトを動画全体にわたってセグメントすることを目指しています。既存の方法の多くは、密集したマスクアノテーションを使用して端から端まで訓練を必要とし、これは計算量が大きく、スケーラビリティが低いという問題があります。本研究では、提案するGrounded Prompting(GroPrompt)フレームワークを用いて弱い監督下で基礎となるセグメンテーションモデルを効率的に適応させることが目的です。具体的には、位置プロンプトと参照文の関連性を強化するために、ボックス監督のみを使用するText-Aware Prompt Contrastive Learning(TAP-CL)を提案します。これには、フレームレベルと動画レベルそれぞれでのText-Contrastive Prompt Learning(TextCon)とModality-Contrastive Prompt Learning(ModalCon)が含まれます。提案するTAP-CLにより、GroPromptフレームワークは動画から指定されたオブジェクトの位置や動きを説明する時間的に一貫性がありながらもテキストに意識的な位置プロンプトを生成することができます。標準的なRVOSベンチマーク(Ref-YouTube-VOS, Ref-DAVIS17, A2D-Sentences, および JHMDB-Sentences)における実験結果は、バウンディングボックスによる弱い監督のみで競争力のある性能を示すことを証明しています。