HyperAIHyperAI

Command Palette

Search for a command to run...

MUTAN: 複数モーダルのテンソル融合による視覚的な質問応答

Hedi Ben-younes Rémi Cadene Matthieu Cord Nicolas Thome

概要

双線形モデルは、視覚質問応答(Visual Question Answering: VQA)タスクにおいて情報の混在と統合に魅力的な枠組みを提供します。これらのモデルは、質問の意味と画像内の視覚的概念との間の高次関連性を学習するのに役立ちますが、巨大な次元性の問題に悩まされています。本研究では、MUTAN(Multimodal Tucker Decomposition Network)を提案します。これは、視覚表現とテキスト表現の間の双線形相互作用を効率的にパラメータ化するための多峰テンソルベースのテッカー分解手法です。さらに、テッカー枠組みに加えて、低ランク行列に基づく分解手法を設計し、相互作用のランクを明示的に制約しています。MUTANにより、融合スキーマの複雑さを制御しつつ、解釈可能な融合関係を維持することができます。また、我々はMUTANモデルが最新のVQAアーキテクチャの中でも一般的であることを示し、最先端の結果を提供することを確認しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています