6ヶ月前

マルチモーダル

マルチモーダル表現

ビデオ処理

マルチモーダル

コンピュータビジョン

Wangbo Zhao Kai Wang Xiangxiang Chu Fuzhao Xue Xinchao Wang Yang You

概要

テキストベースの動画セグメンテーションは、記述文を用いて動画内のターゲットオブジェクトをセグメント化することを目的としています。外観情報と言語的モダリティに加え、光学フローマップから得られる運動情報を統合することは重要であるものの、従来の研究ではほとんど無視されてきました。本論文では、外観、運動、言語的特徴を融合・アライメントする手法を提案し、高精度なセグメンテーションを実現します。具体的には、フレーム間の多モダリティ的かつ時系列的特徴を融合・集約可能なマルチモダリティ動画トランスフォーマーを設計しました。さらに、言語的特徴のガイドのもとで、各特徴レベルにおける外観特徴と運動特徴を段階的に融合するための言語誘導型特徴融合モジュールを構築しました。最後に、異なるモダリティから得られる特徴間の意味的ギャップを軽減するため、マルチモダリティアライメント損失を提案しています。A2D SentencesおよびJ-HMDB Sentencesの広範な実験により、最先端手法と比較して本手法の性能および汎化能力が検証されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

マルチモーダル表現

ビデオ処理

マルチモーダル

コンピュータビジョン

Wangbo Zhao Kai Wang Xiangxiang Chu Fuzhao Xue Xinchao Wang Yang You

概要

テキストベースの動画セグメンテーションは、記述文を用いて動画内のターゲットオブジェクトをセグメント化することを目的としています。外観情報と言語的モダリティに加え、光学フローマップから得られる運動情報を統合することは重要であるものの、従来の研究ではほとんど無視されてきました。本論文では、外観、運動、言語的特徴を融合・アライメントする手法を提案し、高精度なセグメンテーションを実現します。具体的には、フレーム間の多モダリティ的かつ時系列的特徴を融合・集約可能なマルチモダリティ動画トランスフォーマーを設計しました。さらに、言語的特徴のガイドのもとで、各特徴レベルにおける外観特徴と運動特徴を段階的に融合するための言語誘導型特徴融合モジュールを構築しました。最後に、異なるモダリティから得られる特徴間の意味的ギャップを軽減するため、マルチモダリティアライメント損失を提案しています。A2D SentencesおよびJ-HMDB Sentencesの広範な実験により、最先端手法と比較して本手法の性能および汎化能力が検証されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています