2日前

制約誘導型拡散推論機構による神経記号学習

Xuan Zhang, Zhijian Zhou, Weidi Xu, Yanting Miao, Chao Qu, Yuan Qi
制約誘導型拡散推論機構による神経記号学習
要約

ニューラルネットワークが複雑な論理制約を学習し、記号的推論を実現できるようにすることは、重要な課題である。このギャップを埋めるには、通常、ニューラルネットワークの出力分布を記号的制約に近づけるよう誘導する必要がある。拡散モデルは、さまざまな分野において顕著な生成能力を示しているが、本研究ではその強力なアーキテクチャを活用し、神経記号学習(neuro-symbolic learning)および論理パズルの解決に応用する。提案する拡散ベースのパイプラインは、二段階の学習戦略を採用している。第一段階では基本的な推論能力の育成に注力し、第二段階では論理的制約の体系的な学習に重点を置く。第二段階においてニューラル出力に厳密な制約を課すために、拡散推論器(diffusion reasoner)をマルコフ決定過程(Markov decision process)として定式化し、改良された近接方策最適化(improved proximal policy optimization)アルゴリズムを用いて革新的な微調整を行う。また、ニューラル出力の論理的一貫性に基づくルールベースの報酬信号を用い、拡散推論器の方策を最適化するための柔軟な戦略を導入している。本手法は、数独(Sudoku)、迷路(Maze)、経路探索、および好み学習(preference learning)といった古典的な記号的推論ベンチマークで評価された。実験結果から、本手法がニューラルネットワークにおいて優れた正確性と論理的一貫性を達成していることが明らかになった。