Command Palette
Search for a command to run...
Honglin Lin Qizhi Pei Xin Gao Zhuoshi Pan Yu Li Juntao Li Conghui He Lijun Wu

초록
이해 능력은 복잡한 과제를 해결하기 위해 대규모 언어 모델(Large Language Models, LLMs)이 필수적으로 가져야 할 핵심 역량이지만, 신뢰성 있고 확장 가능한 추론을 달성하는 것은 여전히 도전 과제이다. 체인 오브 써밋(Chain-of-Thought, CoT) 프롬프팅이 주류 접근법으로 자리 잡았지만, 기존 방법들은 통제되지 않은 생성, 낮은 품질, 추론 경로의 제한된 다양성 등의 문제를 겪는다. 최근 연구들은 추론을 실행 가능한 단계에 기반하게 하여 CoT의 품질을 향상시키기 위해 코드를 활용하고 있으나, 이러한 접근은 일반적으로 사전 정의된 수학 문제에 한정되어 있어 확장성과 일반화 능력에 한계가 있다. 본 연구에서는 코드 기반 증강을 통해 고품질, 검증 가능하며 다양한 지시-추론 경로(instruction-CoT) 데이터를 자동으로 생성하는 새로운 프레임워크인 Caco(Code-Assisted Chain-of-ThOught)를 제안한다. 기존 연구와 달리, Caco는 먼저 통합된 코드 형식으로 표현된 기존 수학 및 프로그래밍 해결책을 기반으로 코드 기반 CoT 생성기를 미세 조정한 후, 다양한 추론 흔적을 대규모로 확장하여 데이터를 생성한다. 특히, 코드 실행을 통한 자동 검증과 규칙 기반 필터링을 도입하여 논리적 정확성과 구조적 다양성을 보장하고, 필터링된 출력을 역으로 분석하여 자연어 지시어와 언어 기반 CoT로 변환함으로써 과제 적응 능력을 향상시킨다. 이 폐쇄형 루프 과정을 통해 실행 가능성이 보장된 완전 자동화된 확장 가능한 추론 데이터 합성 시스템을 구현할 수 있다. 본 연구에서 구축한 Caco-1.3M 데이터셋을 활용한 실험 결과, Caco로 훈련된 모델은 수학적 추론 벤치마크에서 기존 강력한 기준 모델들을 능가하는 뛰어난 성능을 보였다. 추가 분석을 통해 Caco의 코드 기반 검증 및 지시어의 다양성이 미처 경험하지 못한 과제에 대한 우수한 일반화 능력에 기여함을 확인하였다. 본 연구는 인간의 개입 없이도 자기 유지 및 신뢰할 수 있는 추론 시스템을 구축할 수 있는 새로운 패러다임을 제시한다.