2ヶ月前
Pythia v0.1: 2018年のVQAチャレンジの優勝エントリー
Yu Jiang; Vivek Natarajan; Xinlei Chen; Marcus Rohrbach; Dhruv Batra; Devi Parikh

要約
本稿では、Facebook AI Research (FAIR) の A-STAR チームが VQA Challenge 2018 で優勝した Pythia v0.1 を説明します。我々の出発点は、ボトムアップ・トップダウン(up-down)モデルのモジュール化された再実装です。モデルアーキテクチャと学習率スケジュールに微妙だが重要な変更を加え、画像特徴量の微調整を行い、データ拡張を追加することで、VQA v2.0 データセットにおける up-down モデルの性能を大幅に向上させることができることを示しています。具体的には、正解率が 65.67% から 70.22% に向上しました。さらに、異なる特徴量と異なるデータセットで訓練された多様なモデルのアンサンブルを使用することで、「標準的な」アンサンブル方法(つまり、同じモデルで異なる乱数シードを使用する方法)よりも 1.31% 優れた結果を得ることができました。全体として、VQA v2.0 データセットの test-std 分割において 72.27% の正解率を達成しました。当該コード(訓練、評価、データ拡張、アンサンブル)および事前学習済みモデルは公開されており、以下の URL からアクセスできます: https://github.com/facebookresearch/pythia