7ヶ月前

視覚質問応答

マルチモーダル表現

マルチモーダル

マルチモーダル

Akira Fukui1,2 Dong Huk Park1 Daylen Yang1 Anna Rohrbach1,3 Trevor Darrell1 Marcus Rohrbach1

概要

近年、大規模な言語や視覚データセットから学習されたベクトル表現を用いて文章情報や視覚情報をモデル化する手法が成功裏に研究されてきました。しかし、視覚的な質問応答などのタスクでは、これらのベクトル表現を相互に組み合わせる必要があります。多モーダルプーリングの手法には、要素ごとの積や和、および視覚的と文章的な表現の連結が含まれます。我々は、これらの方法よりも視覚的ベクトルと文章的ベクトルの外積の方が表現力が高いと仮説を立てています。ただし、外積は高次元性のために通常実現不可能であるため、代わりに多モーダルコンパクト双線形プーリング（Multimodal Compact Bilinear pooling: MCB）を利用することを提案します。これにより、効率的にかつ表現豊かに多モーダル特徴を組み合わせることができます。我々はMCBを視覚的な質問応答とグラウンド化タスクで広範囲に評価しました。一貫してMCBを使用しないアブレーションに対してMCBの利点を示しています。視覚的な質問応答については、空間特徴に対する注意予測と、注意された表現と質問表現の組み合わせのためにMCBを2回使用するアーキテクチャを提示します。このモデルはVisual7WデータセットとVQAチャレンジにおいて最先端の性能を超える結果を示しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

視覚質問応答

マルチモーダル表現

マルチモーダル

マルチモーダル

Akira Fukui1,2 Dong Huk Park1 Daylen Yang1 Anna Rohrbach1,3 Trevor Darrell1 Marcus Rohrbach1

概要

近年、大規模な言語や視覚データセットから学習されたベクトル表現を用いて文章情報や視覚情報をモデル化する手法が成功裏に研究されてきました。しかし、視覚的な質問応答などのタスクでは、これらのベクトル表現を相互に組み合わせる必要があります。多モーダルプーリングの手法には、要素ごとの積や和、および視覚的と文章的な表現の連結が含まれます。我々は、これらの方法よりも視覚的ベクトルと文章的ベクトルの外積の方が表現力が高いと仮説を立てています。ただし、外積は高次元性のために通常実現不可能であるため、代わりに多モーダルコンパクト双線形プーリング（Multimodal Compact Bilinear pooling: MCB）を利用することを提案します。これにより、効率的にかつ表現豊かに多モーダル特徴を組み合わせることができます。我々はMCBを視覚的な質問応答とグラウンド化タスクで広範囲に評価しました。一貫してMCBを使用しないアブレーションに対してMCBの利点を示しています。視覚的な質問応答については、空間特徴に対する注意予測と、注意された表現と質問表現の組み合わせのためにMCBを2回使用するアーキテクチャを提示します。このモデルはVisual7WデータセットとVQAチャレンジにおいて最先端の性能を超える結果を示しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

多モーダルコンパクト双線形プーリングを用いた視覚的質問応答と視覚的根拠特定 | 記事 | HyperAI超神経