2ヶ月前

GQA: 実世界の視覚的推論と組み合わせ的な質問応答のための新しいデータセット

Drew A. Hudson; Christopher D. Manning
GQA: 実世界の視覚的推論と組み合わせ的な質問応答のための新しいデータセット
要約

私たちはGQA(Grounded Question Answering)という新しいデータセットを紹介します。このデータセットは、現実世界の視覚的推論と組合せ型質問応答に焦点を当て、従来のVQA(Visual Question Answering)データセットの主要な欠点を解決することを目指しています。私たちは、シーングラフ構造を利用した強力で堅牢な質問エンジンを開発し、2200万件以上の多様な推論質問を作成しました。これらの質問には、その意味を表現する機能的なプログラムが付属しています。これらのプログラムを使用して、回答分布を厳密に制御するとともに、質問バイアスを軽減するための新しい調整可能な平滑化技術を提示します。GQAデータセットと共に提供される新規指標群は、一貫性、根拠付け、信憑性などの本質的な品質を評価します。基線モデルおよび最先端モデルに対する広範な分析を行い、異なる質問タイプやトポロジーに関する詳細な結果を提供しています。無視覚的なLSTM(Long Short-Term Memory)モデルでは42.1%の性能しか得られず、強力なVQAモデルでも54.1%ですが、人間の性能は89.3%と最高峰であり、新たな研究が探求すべき十分な機会を提供しています。私たちは強く希望し、GQAが次世代のモデルにとって有用なリソースとなり、より強固な堅牢性、改善された一貫性、画像と言語に対するより深い意味理解を持つことを期待しています。