HyperAIHyperAI

Command Palette

Search for a command to run...

参照動画セグメンテーションのための深くインターリーブされた二ストリームエンコーダー

Guang Feng Lihe Zhang Zhiwei Hu Huchuan Lu

概要

参照動画セグメンテーションは、自然言語表現によって記述された動画オブジェクトをセグメンテーションするタスクである。本研究では、この課題に対処するため、まずCNNベースの視覚特徴とTransformerベースの言語特徴を階層的に抽出する二本のストリームエンコーダーを設計した。さらに、エンコーダー内部に複数回にわたり視覚-言語相互誘導(Vision-Language Mutual Guidance, VLMG)モジュールを挿入することで、マルチモーダル特徴の階層的かつ段階的な融合を促進した。既存のマルチモーダル融合手法と比較して、本研究の二本のストリームエンコーダーは、言語的文脈の多スケール性を考慮しつつ、VLMGモジュールを活用することで、モダリティ間の深く交差した融合を実現している。また、フレーム間の時間的整合性を強化するため、言語誘導型の多スケール動的フィルタリング(Language-guided Multi-scale Dynamic Filtering, LMDF)モジュールを新たに提案した。このモジュールは、言語誘導型の空間時系列特徴を用いて、位置に特化した動的フィルタを生成し、現在のフレームの特徴をより柔軟かつ効果的に更新することを可能にする。4つのデータセットにおける広範な実験により、提案モデルの有効性が検証された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています