17日前
学習されたオブジェクト埋め込みに対するアテンションにより、複雑な視覚的推論が可能になる
David Ding, Felix Hill, Adam Santoro, Malcolm Reynolds, Matt Botvinick

要約
ニューラルネットワークは、多様な知覚タスクにおいて成功を収めてきたが、知覚と高次の推論を組み合わせたタスクではしばしば失敗する。こうしたより困難なタスクにおいては、特定のタスクに特化したアプローチ(例えば、モジュール型の記号的コンポーネント、独立したダイナミクスモデル、または意味解析器など)が、通常より優れた性能を発揮する。しかしながら、こうした特化型アプローチの欠点は、汎用的なニューラルネットワークに比べて脆弱性が高く、タスクの性質に応じて大幅な修正や根本的な再設計が必要になる点にある。本研究では、動的視覚推論問題に対して、より汎用的なニューラルネットワークベースのアプローチを提案する。この手法は、3つの異なるドメインにおいて最先端の性能を達成しており、それぞれのタスクに特化したモジュール型アプローチを上回っている。本手法は、学習されたオブジェクト中心表現(object-centric representations)、自己注意機構(self-attention)、および自己教師付きダイナミクス学習(self-supervised dynamics learning)の3つの要素に依拠しており、これら3つの要素が併存することで、優れた性能が実現される。この組み合わせの成功は、空間的・時間的、あるいは因果的推論を伴う問題において、柔軟性と性能のトレードオフを避けられる可能性を示唆している。適切なソフトバイアス(soft biases)と学習目的をニューラルネットワークに導入することで、柔軟性と高性能の両方を兼ね備えた解決策を実現できる可能性がある。