HyperAIHyperAI

Command Palette

Search for a command to run...

階層的な質問-画像共注意机制を用いた視覚的質問応答

Jiasen Lu* Jianwei Yang* Dhruv Batra*† Devi Parikh*†

概要

最近の研究では、視覚質問応答(Visual Question Answering: VQA)のために、画像内の質問に回答に関連する領域を強調表示する空間マップを生成する注意モデルが提案されています。本論文では、「どこを見るか」つまり視覚的な注意だけでなく、「どの言葉に耳を傾けるか」つまり質問への注意も同様に重要であると主張します。私たちは、画像と質問の両方の注意を統合的に推論する新しい共注意モデルを提示します。さらに、当モデルは新しい1次元畳み込みニューラルネットワーク(CNN)を通じて階層的に質問(そして共注意メカニズムを通じて画像も)について推論を行います。このモデルにより、VQAデータセットでの最先端の性能が60.3%から60.5%へ、COCO-QAデータセットでは61.6%から63.3%へ向上しました。ResNetを使用することで、VQAでは62.1%、COCO-QAでは65.4%へと性能がさらに向上しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています