
要約
記憶と注意メカニズムを備えたニューラルネットワークのアーキテクチャは、質問応答に必要な特定の推論能力を示しています。そのようなアーキテクチャの一つである動的記憶ネットワーク(Dynamic Memory Network: DMN)は、様々な言語タスクにおいて高い精度を達成しました。しかし、訓練時に支持事実がマークされていない場合でも質問応答で優れた結果を得られるかどうか、または画像などの他のモダリティに適用できるかどうかは明らかではありませんでした。DMNの分析に基づいて、私たちはその記憶モジュールと入力モジュールに対するいくつかの改善を提案します。これらの変更とともに、視覚的な質問に答えられるようにするための新しい画像入力モジュールを導入します。私たちの新DMN+モデルは、支持事実の監督なしで、Visual Question Answeringデータセットおよび\babi-10kテキスト質問応答データセットにおける最先端の性能を向上させています。注:「\babi-10k」は特別な形式や名前である可能性があるため、そのまま表記しています。