2ヶ月前

VQAのための再帰的な回答ユニットの訓練と共同損失最小化

Hyeonwoo Noh; Bohyung Han
VQAのための再帰的な回答ユニットの訓練と共同損失最小化
要約

我々は、リカレントディープニューラルネットワークを基盤とした視覚質問応答のための新規アルゴリズムを提案します。このネットワークでは、各モジュールが自己完結型の回答ユニットとして機能し、注意機構(attention mechanism)を持つことが特徴です。ネットワークは、すべてのユニットから得られる損失を最小化することで最適化されます。これらのユニットはモデルパラメータを共有しながらも、異なる情報を用いて注意確率を計算します。訓練において、我々のモデルは画像特徴マップ内の領域に注目し、質問と注目した画像特徴に基づいてメモリを更新し、そのメモリ状態に基づいて質問に答えます。この手順は各ステップで損失を計算するために実行されます。本アプローチの動機付けは、複数ステップの推論が必要となる質問が多い一方で、各問題ごとに最適なステップ数が異なり、実際には特定するのが難しいという観察結果に基づいています。したがって、ネットワーク内の最初のユニットには常に問題解決を任せますが、それ以外のユニットからの知識を逆伝播によって学習させることを許可しています(ただしモデル性能が低下する場合は除きます)。このアイデアを実現するために、各ユニットが過学習(overfitting)が始まった時点で早期停止を行います。より複雑なモデルほど簡単な質問に対して早く過学習する傾向があるため、展開されたリカレントニューラルネットワークにおける最後の回答ユニットが最初に削除されることが一般的であり、最初のユニットが最後まで残ることが多いです。新しい質問に対する単一ステップ予測では共有モデルを使用します。この戦略は他のオプションよりも効果的であり、選択されたモデルは過学習せずにすべてのユニットから効率的に訓練されるためです。提案されたアルゴリズムはVQAデータセットにおいて単一ステップ予測を使用する他の多段階注意機構ベースの手法よりも優れた性能を示しました。