2일 전

제약조건 유도 확산 추론기: 신경심볼릭 학습을 위한 접근

Xuan Zhang, Zhijian Zhou, Weidi Xu, Yanting Miao, Chao Qu, Yuan Qi
제약조건 유도 확산 추론기: 신경심볼릭 학습을 위한 접근
초록

신경망이 복잡한 논리적 제약 조건을 학습하고 상징적 추론을 수행할 수 있도록 하는 것은 중요한 과제이다. 이 격차를 메우기 위해서는 신경망의 출력 분포가 상징적 제약 조건에 더 가까워지도록 유도하는 것이 일반적으로 요구된다. 확산 모델은 다양한 분야에서 뛰어난 생성 능력을 보여주었지만, 본 연구에서는 이 강력한 아키텍처를 활용하여 신경-상징적 학습을 수행하고 논리 퍼즐을 해결한다. 제안하는 확산 기반 파이프라인은 두 단계 학습 전략을 채택한다. 첫 번째 단계는 기본적인 추론 능력을 기르는 데 집중하며, 두 번째 단계는 논리적 제약 조건에 대한 체계적인 학습을 강조한다. 두 번째 단계에서 신경망 출력에 하드 제약을 적용하기 위해, 확산 추론기(Reasoner)를 마르코프 결정 과정(Markov Decision Process, MDP)으로 정식화하고, 개선된 근접 정책 최적화(Proximal Policy Optimization, PPO) 알고리즘을 혁신적으로 적용하여 미세 조정한다. 또한, 신경망 출력의 논리적 일관성에서 유도된 규칙 기반 보상 신호를 사용하며, 확산 추론기의 정책을 최적화하기 위해 유연한 전략을 도입한다. 제안한 방법은 수수께끼 풀이(Sudoku), 미로 탐색(Maze), 경로 탐색(Pathfinding), 선호도 학습(Preference Learning) 등 전통적인 상징적 추론 벤치마크에서 평가되었다. 실험 결과, 제안된 접근법이 신경망의 높은 정확도와 우수한 논리적 일관성을 동시에 달성함을 입증하였다.