6ヶ月前

マルチモーダル表現

セマンティックセグメンテーション

マルチモーダル

マルチモーダル

コンピュータビジョン

Huchuan Lu Lihe Zhang Jiayu Sun Guang Feng Zhiwei Hu

概要

既存の多数の手法は、視覚と言語の間の相互指導を明示的に定式化していない。本研究では、マルチモーダル情報の依存関係をモデル化するため、双方向的関係推論ネットワーク（BRINet）を提案する。具体的には、視覚情報をもとに言語的文脈を適応的に学習する「視覚誘導型言語的注目（vision-guided linguistic attention）」を用いる。これと、言語誘導型視覚的注目を組み合わせることで、双方向的マルチモーダル注目モジュール（BCAM）を構築し、複数モーダル特徴間の関係を学習する。その結果、対象オブジェクトと参照表現の最終的な意味的文脈を正確かつ一貫して表現可能となる。さらに、ゲート関数を用いて多レベル情報の双方向的伝達を制御するゲート付き双方向融合モジュール（GBFM）を設計し、多レベル特徴を効果的に統合する。4つのベンチマークデータセットにおける広範な実験結果から、提案手法が異なる評価指標において、他の最先端手法を上回ることを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル表現

セマンティックセグメンテーション

マルチモーダル

マルチモーダル

コンピュータビジョン

Huchuan Lu Lihe Zhang Jiayu Sun Guang Feng Zhiwei Hu

概要

既存の多数の手法は、視覚と言語の間の相互指導を明示的に定式化していない。本研究では、マルチモーダル情報の依存関係をモデル化するため、双方向的関係推論ネットワーク（BRINet）を提案する。具体的には、視覚情報をもとに言語的文脈を適応的に学習する「視覚誘導型言語的注目（vision-guided linguistic attention）」を用いる。これと、言語誘導型視覚的注目を組み合わせることで、双方向的マルチモーダル注目モジュール（BCAM）を構築し、複数モーダル特徴間の関係を学習する。その結果、対象オブジェクトと参照表現の最終的な意味的文脈を正確かつ一貫して表現可能となる。さらに、ゲート関数を用いて多レベル情報の双方向的伝達を制御するゲート付き双方向融合モジュール（GBFM）を設計し、多レベル特徴を効果的に統合する。4つのベンチマークデータセットにおける広範な実験結果から、提案手法が異なる評価指標において、他の最先端手法を上回ることを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています