ProtoReasoning: 프로토타입을 기반으로 한 일반화 가능한 추론 LLMs에서 프로토타입이 일반화 가능한 추론의 기초로 작용하는 방식에 대해 설명합니다.

최근 Long Chain-of-Thought (Long CoT) 추론을 통해 훈련된 대형 추론 모델(Large Reasoning Models, LRMs)이 뛰어난 다영역 일반화 능력을 보여주고 있습니다. 그러나 이러한 전이를 지원하는 근본적인 메커니즘은 아직 잘 이해되지 않고 있습니다. 우리는 다영역 일반화가 공유된 추상적 추론 프로토타입 -- 다양한 영역의 문제 본질을 포착하는 기본적인 추론 패턴 --에서 비롯된다고 가설을 세웠습니다. 이러한 프로토타입은 표현의 미묘한 차이를 최소화하여, 겉보기에 다양해 보이는 작업들이 공통의 추론 구조에 기반하고 있음을 드러냅니다.이 가설에 기반하여, 우리는 Prolog(논리적 추론용)과 PDDL(계획 수립용)을 활용하여 확장 가능하고 검증 가능한 프로토타입 표현을 제공하는 ProtoReasoning 프레임워크를 제안합니다. ProtoReasoning의 특징은 다음과 같습니다: (1) 문제를 해당 프로토타입 표현으로 변환하는 자동 프로토타입 구성 파이프라인; (2) Prolog/PDDL 인터프리터를 통해 신뢰할 수 있는 피드백을 제공하는 포괄적인 검증 시스템; (3) 정확성을 유지하면서 프로토타입 공간 내에서 임의로 문제를 합성할 수 있는 확장성.대규모 실험 결과, ProtoReasoning은 논리적 추론(Enigmata-Eval)에서 기준 모델보다 4.7% 개선, 계획 작업에서 6.3% 개선, 일반적 추론(MMLU)에서 4.0% 개선, 수학(AIME24)에서는 1.0% 개선되는 것으로 나타났습니다. 특히, 우리의 감소 실험(ablation studies)은 자연어 표현만으로 훈련한 것보다 구조적으로 유사한 문제에 대한 일반화 능력이 향상됨을 확인하여, 대형 언어 모델에서 일반화 가능한 추론의 기반이 되는 것이 바로 추론 프로토타입이라는 우리의 가설을 입증하였습니다.