7ヶ月前

視覚質問応答

マルチモーダル表現

マルチモーダル

マルチモーダル

Hedi Ben-younes Rémi Cadene Matthieu Cord Nicolas Thome

概要

双線形モデルは、視覚質問応答（Visual Question Answering: VQA）タスクにおいて情報の混在と統合に魅力的な枠組みを提供します。これらのモデルは、質問の意味と画像内の視覚的概念との間の高次関連性を学習するのに役立ちますが、巨大な次元性の問題に悩まされています。本研究では、MUTAN（Multimodal Tucker Decomposition Network）を提案します。これは、視覚表現とテキスト表現の間の双線形相互作用を効率的にパラメータ化するための多峰テンソルベースのテッカー分解手法です。さらに、テッカー枠組みに加えて、低ランク行列に基づく分解手法を設計し、相互作用のランクを明示的に制約しています。MUTANにより、融合スキーマの複雑さを制御しつつ、解釈可能な融合関係を維持することができます。また、我々はMUTANモデルが最新のVQAアーキテクチャの中でも一般的であることを示し、最先端の結果を提供することを確認しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

視覚質問応答

マルチモーダル表現

マルチモーダル

マルチモーダル

Hedi Ben-younes Rémi Cadene Matthieu Cord Nicolas Thome

概要

双線形モデルは、視覚質問応答（Visual Question Answering: VQA）タスクにおいて情報の混在と統合に魅力的な枠組みを提供します。これらのモデルは、質問の意味と画像内の視覚的概念との間の高次関連性を学習するのに役立ちますが、巨大な次元性の問題に悩まされています。本研究では、MUTAN（Multimodal Tucker Decomposition Network）を提案します。これは、視覚表現とテキスト表現の間の双線形相互作用を効率的にパラメータ化するための多峰テンソルベースのテッカー分解手法です。さらに、テッカー枠組みに加えて、低ランク行列に基づく分解手法を設計し、相互作用のランクを明示的に制約しています。MUTANにより、融合スキーマの複雑さを制御しつつ、解釈可能な融合関係を維持することができます。また、我々はMUTANモデルが最新のVQAアーキテクチャの中でも一般的であることを示し、最先端の結果を提供することを確認しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています