절약형 LMs를 사용하여 기호적 해결기 호출하도록 훈련시켜 파라미터 효율적인 산술 추론 달성

대규모 언어 모델(LLM)은 규모가 증가함에 따라 나타나는 현상으로서, 제로샷(zero-shot) 수학적 추론 능력을 보이며, 일반적으로 사고의 흐름(chain-of-thought, CoT) 형식으로 나타난다. 그러나 여러 실증적 연구 결과에 따르면, 이러한 능력은 500억 파라미터를 초과하는 매우 거대한 LLM에 한해 존재하는 것으로 나타났다. 한편, 교육 신경과학자들은 산술 문제를 해결하는 데 있어 언어적 이해와 공식화, 공식의 기호적 변환, 그리고 최종 계산 단계를 분리하여 모듈화하는 것이 효과적이라고 제안하며, 산술 단어 문제를 접하는 시점과 함께 기호적 대수적 변환을 도입할 것을 권고한다. 본 논문에서는, 다단계 추론 능력이 낮은 비교적 작은 언어 모델(LM)이, 산술 단어 문제를 ‘공식화한 후 해결한다(formalize-then-solve)’는 형태로 제시할 경우, 합리적인 산술 추론 능력을 달성할 수 있다는 가정을 전제로 한다. 제안하는 아키텍처인 SYRELM에서는 LM이 자연어로 표현된 산술 문제를 형식적 언어(Formal Language, FL)로 변환하는 번역기 역할을 수행한다. 이후 기호적 해결기(symbolic solver)가 FL 표현식을 평가하여 최종 답안을 도출한다. 작은 고정된(LM) 모델은 효율적인 저랭크 어댑터(low-rank adapter)를 갖추고 있어, 산술 문제의 자연어 설명(예: 변수 이름과 그 목적, 변수를 결합한 형식적 표현 등)을 포함한 FL 표현식을 생성할 수 있다. 본 연구는 비미분 가능한 기호적 해결기를 기반으로, 정책 기반 강화 학습(policy-gradient reinforcement learning)을 사용하여 적응된 LM을 학습시킨다. 이는 최근의 도구 보강형 LLMs와는 근본적으로 다른 접근 방식으로, 외부 도구(예: 계산기, 웹 검색 등)가 LM의 학습 과정과 분리되어 있다는 점에서 두드러진 차이를 보인다. SYRELM은 기존 기반 LM 대비 극적인 성능 향상을 보이며, GPT-J 6B 모델을 사용한 SVAMP 데이터셋에서 정확도가 +30.65점 이상 향상되었으며, 실험 환경은 진단 및 해석이 용이하고 대부분의 연구자들이 접근 가능한 수준을 유지하고 있다.