AI가 자연어와 도구 사용을 결합해 수학 문제 해결 능력 향상
현재까지의 긴 사고 과정(CoT) 모델은 반복적인 자가 검증과 개선을 통해 수학적 추론에서 최상의 성능을 달성해 왔다. 그러나 오픈소스 긴 사고 과정 모델은 단지 자연어 추론 흐름에 의존하기 때문에 계산 비용이 높고 오류 발생 가능성이 크며, 검증 메커니즘 없이는 한계가 있다. 반면, 도구를 활용한 추론은 OpenHands와 같은 코드 해석기 통합 프레임워크를 통해 대규모 수치 계산의 효율성과 신뢰성을 높일 수 있지만, 추상적이나 개념적으로 복잡한 문제를 해결하는 데는 한계가 있다. 카네기메لون대학교 연구진은 두 가지 상보적인 교사 모델의 추론 경로를 결합해 단일 학습 모델을 생성하는 DualDistill라는 틀을 제안했다. 이 프레임워크는 Agentic-R1이라는 모델을 개발하여, 문제 유형에 따라 가장 적절한 전략을 동적으로 선택할 수 있도록 학습시켰다. Agentic-R1은 산술 및 알고리즘 작업에 코드 실행을 수행하고, 추상적인 문제에 대해서는 자연어 추론을 사용한다. DualDistill은 두 교사 모델의 추론 경로를 조합하고, 이후 자가 학습을 통해 지식을 학습한다. 연구팀은 OpenHands를 자율적 추론 교사로, DeepSeek-R1을 텍스트 기반 추론 교사로 활용했다. 이 방법은 DeepMath-L과 Combinatorics300 등 다양한 벤치마크에서 평가되었으며, DeepSeek-R1-Distill과 Qwen-2.5-Instruct와 비교되었다. Agentic-R1은 도구 지원과 추론 전략을 모두 활용해 성능이 크게 향상되었다. 이 모델은 각각 도구 지원 또는 순수 추론 전략에 특화된 두 개의 유사한 크기의 모델을 능가했다. 특히, 계산이 복잡한 문제에서는 추론 전략을 적절히 사용함으로써 도구 기반 모델보다 우수한 성능을 보였으며, 표준 수학 문제에서는 순수 추론 모델보다 더 효율적인 결과를 얻었다. Qualitative 분석에 따르면, Agentic-R1은 지능적으로 도구를 사용하는 패턴을 보이며, Combinatorics300 문제 중 79.2%에서는 코드 실행 도구를 활성화하는 반면, AMC 데이터셋의 단순한 문제에서는 52.0%에 그쳤다. 연구팀은 이 모델이 명시적인 지시 없이 단순히 감독 학습을 통해 도구 사용을 적절히 학습하고, 계산 효율성과 추론 정확도 사이의 균형을 유지함을 확인했다. DualDistill 프레임워크는 불완전한 교사 모델을 사용하더라도 효과적인 결과를 제공한다. 예를 들어, 자율적 추론 교사가 Combinatorics300에서 48.4%의 정확도를 보였지만, 학습 모델은 44.7%에서 50.9%로 성능이 향상되어 결국 교사보다 더 높은 성능을 보였다. 결론적으로 DualDistill 프레임워크는 두 개의 전문적인 교사 모델에서 유래한 상보적인 지식을 통합하여, Agentic-R1이라는 유연한 학습 모델을 개발함으로써 자연어 추론과 도구 지원 문제 해결의 강점을 결합했다. 추론 경로 조합과 자가 학습을 통해 Agentic-R1은 문제 유형에 따라 최적의 전략을 선택할 수 있는 능력을 갖추게 되었으며, 다양한 수학적 추론 벤치마크에서 순수 추론 모델과 도구 기반 모델을 모두 능가하는 성능을 보였다. 이는 불완전한 교사 모델을 기반으로 하더라도 효과적인 성능 향상이 가능함을 보여주는 중요한 연구 결과이다. 이 연구는 다양한 문제 해결 전략을 통합할 수 있는 적응형 인공지능 에이전트를 구축하는 데 있어 전망 있는 접근법을 제시한다.