3ヶ月前

表現プロンプト協調トランスフォーマーによるユニバーサル参照動画オブジェクトセグメンテーション

Jiajun Chen, Jiacheng Lin, Guojin Zhong, Haolong Fu, Ke Nai, Kailun Yang, Zhiyong Li
表現プロンプト協調トランスフォーマーによるユニバーサル参照動画オブジェクトセグメンテーション
要約

音声誘導型動画オブジェクトセグメンテーション(A-VOS)および参照型動画オブジェクトセグメンテーション(R-VOS)は、いずれも表現プロンプトに基づいて動画シーケンスから特定のオブジェクトをセグメンテーションするという共通の目的を持つ、密接に関連する二つのタスクである。しかし、異なるモダリティの表現をモデル化する困難さのため、従来の手法は相互作用の柔軟性と局所化精度のバランスを取ることが困難である。本論文では、この課題に着目し、音声とテキストの整合性、および音声・テキスト・視覚モダリティ間の深層的相互作用の二つの観点から対処する。まず、汎用的なアーキテクチャとして「Expression Prompt Collaboration Transformer(EPCFormer)」を提案する。次に、音声とテキストの間で表現の整合性を高める「Expression Alignment(EA)」機構を導入する。提案するEPCFormerは、同じオブジェクトを指す音声プロンプトとテキストプロンプトが意味的に等価であるという事実を活用し、両者の表現に対して対比学習(contrastive learning)を適用する。さらに、音声・テキスト・視覚モダリティ間の深層的相互作用を促進するため、「Expression-Visual Attention(EVA)」モジュールを導入する。これにより、テキストと音声の補完的特徴を深く探索することで、表現プロンプトに基づく動画オブジェクトセグメンテーションの知識が、両タスク間でスムーズに転移可能となる。広く認識されたベンチマークデータセット上での実験結果から、EPCFormerが両タスクにおいて最先端の性能を達成することが確認された。ソースコードは、https://github.com/lab206/EPCFormer にて公開される予定である。