11日前

参照動画セグメンテーションのための深くインターリーブされた二ストリームエンコーダー

Guang Feng, Lihe Zhang, Zhiwei Hu, Huchuan Lu
参照動画セグメンテーションのための深くインターリーブされた二ストリームエンコーダー
要約

参照動画セグメンテーションは、自然言語表現によって記述された動画オブジェクトをセグメンテーションするタスクである。本研究では、この課題に対処するため、まずCNNベースの視覚特徴とTransformerベースの言語特徴を階層的に抽出する二本のストリームエンコーダーを設計した。さらに、エンコーダー内部に複数回にわたり視覚-言語相互誘導(Vision-Language Mutual Guidance, VLMG)モジュールを挿入することで、マルチモーダル特徴の階層的かつ段階的な融合を促進した。既存のマルチモーダル融合手法と比較して、本研究の二本のストリームエンコーダーは、言語的文脈の多スケール性を考慮しつつ、VLMGモジュールを活用することで、モダリティ間の深く交差した融合を実現している。また、フレーム間の時間的整合性を強化するため、言語誘導型の多スケール動的フィルタリング(Language-guided Multi-scale Dynamic Filtering, LMDF)モジュールを新たに提案した。このモジュールは、言語誘導型の空間時系列特徴を用いて、位置に特化した動的フィルタを生成し、現在のフレームの特徴をより柔軟かつ効果的に更新することを可能にする。4つのデータセットにおける広範な実験により、提案モデルの有効性が検証された。

参照動画セグメンテーションのための深くインターリーブされた二ストリームエンコーダー | 最新論文 | HyperAI超神経