2ヶ月前
視覚的推論のためのプログラムの推定と実行
Justin Johnson; Bharath Hariharan; Laurens van der Maaten; Judy Hoffman; Li Fei-Fei; C. Lawrence Zitnick; Ross Girshick

要約
既存の視覚推論手法は、ブラックボックス構造を用いて入力を出力に直接マッピングしようと試み、基礎となる推論プロセスを明示的にモデル化することなく行われています。その結果、これらのブラックボックスモデルはしばしばデータのバイアスを利用することを学習し、視覚推論を行うことを学習するよりもその傾向が強いです。モジュールネットワークに着想を得て、本論文では視覚推論のためのモデルを提案します。このモデルは、実行すべき推論プロセスの明示的な表現を作成するプログラムジェネレータと、生成されたプログラムを実行して答えを導き出す実行エンジンから構成されています。プログラムジェネレータと実行エンジンの両方ともニューラルネットワークによって実装され、バックプロパゲーションとREINFORCE(強化学習アルゴリズム)の組み合わせを使用して訓練されます。CLEVRベンチマークを用いた視覚推論の評価において、我々のモデルは強力な基準モデルに対して著しく優れた性能を示し、様々な設定下でより良い汎化能力を持つことが確認されました。