
要約
私たちはニューラルステートマシンを導入します。このマシンは、AIのニューラル視点と記号論理視点の間にあるギャップを埋め、視覚的推論タスクにおいてそれらの補完的な強みを統合することを目指しています。画像が与えられた場合、まずその潜在的な意味を表現する確率グラフを予測し、構造化された世界モデルとして機能させます。次に、グラフ上で逐次的な推論を行い、ノードを反復的に探索して与えられた質問に答えたり新しい推論を行ったりします。ほとんどのニューラルアーキテクチャが生の感覚データと密接に相互作用するように設計されているのに対し、私たちのモデルは抽象的な潜在空間で動作します。視覚モダリティと言語モダリティの両方を意味概念ベースの表現に変換することで、透明性とモジュール性が向上します。我々はVQA-CPおよびGQAという2つの最近のVQAデータセットでモデルを評価しました。これらのデータセットには合成性、多段階推論、および多様な推論スキルが含まれており、両方で最先端の結果を得ました。さらに、概念の新しい組み合わせ、回答分布の変化、未見の言語構造など、複数の次元での強い汎化能力を示す実験も提供しています。これらの実験により、当社アプローチの品質と効果が明確に示されています。