6ヶ月前

マルチモーダル表現

セマンティックセグメンテーション

ビデオ処理

マルチモーダル

コンピュータビジョン

Guang Feng Lihe Zhang Zhiwei Hu Huchuan Lu

概要

参照動画セグメンテーションは、自然言語表現によって記述された動画オブジェクトをセグメンテーションするタスクである。本研究では、この課題に対処するため、まずCNNベースの視覚特徴とTransformerベースの言語特徴を階層的に抽出する二本のストリームエンコーダーを設計した。さらに、エンコーダー内部に複数回にわたり視覚-言語相互誘導（Vision-Language Mutual Guidance, VLMG）モジュールを挿入することで、マルチモーダル特徴の階層的かつ段階的な融合を促進した。既存のマルチモーダル融合手法と比較して、本研究の二本のストリームエンコーダーは、言語的文脈の多スケール性を考慮しつつ、VLMGモジュールを活用することで、モダリティ間の深く交差した融合を実現している。また、フレーム間の時間的整合性を強化するため、言語誘導型の多スケール動的フィルタリング（Language-guided Multi-scale Dynamic Filtering, LMDF）モジュールを新たに提案した。このモジュールは、言語誘導型の空間時系列特徴を用いて、位置に特化した動的フィルタを生成し、現在のフレームの特徴をより柔軟かつ効果的に更新することを可能にする。4つのデータセットにおける広範な実験により、提案モデルの有効性が検証された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル表現

セマンティックセグメンテーション

ビデオ処理

マルチモーダル

コンピュータビジョン

Guang Feng Lihe Zhang Zhiwei Hu Huchuan Lu

概要

参照動画セグメンテーションは、自然言語表現によって記述された動画オブジェクトをセグメンテーションするタスクである。本研究では、この課題に対処するため、まずCNNベースの視覚特徴とTransformerベースの言語特徴を階層的に抽出する二本のストリームエンコーダーを設計した。さらに、エンコーダー内部に複数回にわたり視覚-言語相互誘導（Vision-Language Mutual Guidance, VLMG）モジュールを挿入することで、マルチモーダル特徴の階層的かつ段階的な融合を促進した。既存のマルチモーダル融合手法と比較して、本研究の二本のストリームエンコーダーは、言語的文脈の多スケール性を考慮しつつ、VLMGモジュールを活用することで、モダリティ間の深く交差した融合を実現している。また、フレーム間の時間的整合性を強化するため、言語誘導型の多スケール動的フィルタリング（Language-guided Multi-scale Dynamic Filtering, LMDF）モジュールを新たに提案した。このモジュールは、言語誘導型の空間時系列特徴を用いて、位置に特化した動的フィルタを生成し、現在のフレームの特徴をより柔軟かつ効果的に更新することを可能にする。4つのデータセットにおける広範な実験により、提案モデルの有効性が検証された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています