HyperAIHyperAI

Command Palette

Search for a command to run...

GroPrompt: Referring Video Object Segmentationのための効率的なGrounded PromptingとAdaptation

Ci-Siang Lin I-Jieh Liu Min-Hung Chen Chien-Yi Wang Sifei Liu Yu-Chiang Frank Wang

概要

参照動画オブジェクトセグメンテーション(RVOS)は、クエリ文で指定されたオブジェクトを動画全体にわたってセグメントすることを目指しています。既存の方法の多くは、密集したマスクアノテーションを使用して端から端まで訓練を必要とし、これは計算量が大きく、スケーラビリティが低いという問題があります。本研究では、提案するGrounded Prompting(GroPrompt)フレームワークを用いて弱い監督下で基礎となるセグメンテーションモデルを効率的に適応させることが目的です。具体的には、位置プロンプトと参照文の関連性を強化するために、ボックス監督のみを使用するText-Aware Prompt Contrastive Learning(TAP-CL)を提案します。これには、フレームレベルと動画レベルそれぞれでのText-Contrastive Prompt Learning(TextCon)とModality-Contrastive Prompt Learning(ModalCon)が含まれます。提案するTAP-CLにより、GroPromptフレームワークは動画から指定されたオブジェクトの位置や動きを説明する時間的に一貫性がありながらもテキストに意識的な位置プロンプトを生成することができます。標準的なRVOSベンチマーク(Ref-YouTube-VOS, Ref-DAVIS17, A2D-Sentences, および JHMDB-Sentences)における実験結果は、バウンディングボックスによる弱い監督のみで競争力のある性能を示すことを証明しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています