Command Palette
Search for a command to run...
LLM에 계획을 가르치기: 기호적 계획을 위한 논리적 사고 체인 지도 튜닝
LLM에 계획을 가르치기: 기호적 계획을 위한 논리적 사고 체인 지도 튜닝
Pulkit Verma Ngoc La Anthony Favier Swaroop Mishra Julie A. Shah
초록
대규모 언어 모델(Large Language Models, LLMs)은 다양한 작업에서 놀라운 능력을 보여주었으나, 특히 Planning Domain Definition Language(PDDL)과 같은 공식적 표현이 요구되는 분야에서 구조화된 기호적 계획 수행 능력은 여전히 제한적이다. 본 논문에서는 논리적 사고 체인(Chain-of-Thought) 추론을 통해 LLM의 기호적 계획 능력을 강화하기 위해 설계된 새로운 지시 조정 프레임워크인 PDDL-Instruct를 제안한다. 본 연구의 접근법은 모델이 동작의 적용 가능성, 상태 전이, 계획의 타당성에 대해 명시적인 논리적 추론 단계를 통해 엄격하게 추론하도록 가르치는 데 초점을 맞춘다. 주어진 상태에서 어떤 동작이 적용 가능한지를 판단하기 위해 필요한 정확한 논리적 추론 과정을 안내하는 지시 프롬프트를 개발함으로써, LLM이 구조화된 반성(Reflection)을 통해 계획 과정을 자가 수정할 수 있도록 한다. 본 프레임워크는 전조건 충족 여부, 효과 적용, 불변식 보존에 관한 명시적인 추론 체인으로 계획 과정을 분해함으로써 체계적으로 검증 능력을 구축한다. 다양한 계획 도메인에서의 실험 결과에 따르면, 사고 체인 기반 지시 조정 모델은 기존 모델 대비 평균 66%의 절대적 성능 향상을 기록하며, 표준 벤치마크에서 최대 94%의 계획 정확도를 달성했다. 본 연구는 LLM의 일반적 추론 능력과 자동 계획에 요구되는 논리적 정밀성 사이의 격차를 메우며, 보다 우수한 AI 계획 시스템 개발을 위한 희망적인 방향을 제시한다.