2ヶ月前

ビジュアルクエスチョンアンサリングのヒントとテクニック:2017年のチャレンジからの学び

Damien Teney; Peter Anderson; Xiaodong He; Anton van den Hengel
ビジュアルクエスチョンアンサリングのヒントとテクニック:2017年のチャレンジからの学び
要約

本論文では、2017年のVQAチャレンジで優勝した最先端の視覚質問応答(VQA)モデルを紹介します。VQAは、その多様なモーダル性、明確な評価プロトコル、および実世界への潜在的な応用可能性から、人工知能研究において重要な課題となっています。深層ニューラルネットワークのVQA性能は、アーキテクチャとハイパーパラメータの選択に大きく依存しています。この領域でのさらなる研究を支援するために、我々は詳細に説明しますが、比較的単純な高性能モデルについて述べます。3,000時間を超えるGPU時間による大規模なアーキテクチャとハイパーパラメータの探索を通じて、その成功につながるヒントやテクニックを特定しました。具体的には:シグモイド出力、ソフトトレーニングターゲット、ボトムアップ注意からの画像特徴量、ゲート付きtanh活性化関数、GloVeとGoogle Imagesを使用して初期化された出力埋め込み、大規模ミニバッチ、および訓練データの賢明なシャッフルです。これらの要素が性能に与える影響の詳細分析を提供し、他の研究者が適切な選択を行うことを支援します。