17日前
誘導された記号空間を用いた解釈可能な視覚的推論
Zhonghao Wang, Kai Wang, Mo Yu, Jinjun Xiong, Wen-mei Hwu, Mark Hasegawa-Johnson, Humphrey Shi

要約
視覚的推論における概念誘導問題、すなわち画像に関連する質問・回答ペアから概念およびその階層的関係を同定することを研究し、誘導された記号的概念空間上で作業することで解釈可能性の高いモデルを実現する。この目的のため、まず、オブジェクトレベルの視覚特徴を用いて視覚的推論を行うための新しいフレームワークである「オブジェクト中心的構成的アテンションモデル(OCCAM)」を設計する。次に、オブジェクトの視覚特徴と質問語との間のアテンションパターンから得られる手がかりを用いて、オブジェクトおよび関係の概念を誘導する手法を提案する。最後に、誘導された記号的概念空間に表現されたオブジェクトに対してOCCAMを適用することで、より高い解釈可能性を達成する。本モデルの設計により、まずオブジェクトおよび関係の概念を予測し、その後その予測された概念を視覚特徴空間に再投影することで、構成的推論モジュールが通常通り処理できるようになるという、容易な適応が可能となる。CLEVRおよびGQAデータセットにおける実験結果から、以下のことが示された:1)人間による関数プログラムのアノテーションを一切不要として、OCCAMは新たなSOTA(最先端)性能を達成している;2)誘導された概念は正確かつ十分であり、視覚特徴上または誘導された記号的概念空間上に表現されたオブジェクトに対して、OCCAMは同等の性能を発揮している。