
要約
我々は複雑な視覚的推論タスクで一般的に使用されているブラックボックス型のニューラルアーキテクチャを解体し、提案する説明可能かつ明示的なニューラルモジュール(eXplainable and eXplicit Neural Modules: XNMs)に再構築することを目指しています。XNMsは、既存のニューラルモジュールネットワークを発展させ、シーングラフ(オブジェクトがノード、対象間の関係がエッジとなる)を使用して、構造化された知識による説明可能な明示的な推論を行うことを可能にします。XNMsにより、マシンが何を見るかに関わらず、「思考」の方法をより重視して教えることができます。本稿で示すように、シーングラフを帰納的バイアスとして使用することで、1) XNMsは簡潔かつ柔軟な設計が可能となり、4つのメタタイプのみから構成され、パラメータ数を10倍から100倍削減できます。2) グラフ注意を用いて推論フローを明確に追跡することができます。XNMsは非常に汎用性が高いため、品質の異なるさまざまなシーングラフ実装をサポートします。例えば、グラフが完全に検出された場合、XNMsはCLEVRおよびCLEVR CoGenTで100%の精度を達成し、視覚的推論における経験的な性能上限を設定します。一方、グラフがノイジーな実世界画像から検出された場合でも、XNMsは依然として競争力のある67.5%の精度をVQAv2.0で達成し、グラフ構造を持たない一般的なオブジェクト集合注意モデルを超える性能を示します。