
要約
本論文では、視覚的な質問応答タスクの新しい基準モデルを提案します。画像と自然言語で表現された質問が与えられた場合、当該モデルは画像の内容に基づいて正確な回答を生成します。当該モデルは、アーキテクチャが単純であり、学習可能なパラメータ数も比較的少ないにもかかわらず、不均衡および平衡VQAベンチマークの両方において新たな最先端の成果を達成しています。VQA 1.0オープンエンドチャレンジにおいて、追加データを使用せずにテスト・スタンダードセットで64.6%の精度を達成し、最先端の結果に対して0.4%の向上を示しました。また、新しくリリースされたVQA 2.0においては、検証セットで59.7%のスコアを獲得し、これまで報告されていた最良の結果よりも0.5%上回っています。本論文で提示される結果は特に興味深いものであり、類似したモデルが以前に試みられていましたが、著しく低い性能しか報告されていませんでした。これらの新しい結果を踏まえて、今後より有意義な視覚的な質問応答に関する研究が進むことを期待しています。