연구팀, 대형 언어 모델의 코드 실행 능력 향상 방법 제시
최근, 중국과학기술대학교 졸업생이며 미국 하버드대학교 박사과정에 있는 천용초 연구원과 그의 팀은 Qwen-3B/7B/14B 모델을 기반으로 다중 단계 감독 미세 조정(Supervised Fine-Tuning, SFT)과 집단 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 사용하여 144개의 추론 및 계획 작업을 수행하도록 모델을 훈련시켰다. 이 과정에서 모델은 추론을 돕기 위해 코드 실행기를 자유롭게 여러 번 사용할 수 있었다. 이러한 작업들은 대부분 기호 계산(Symbolic Computation)의 요소를 포함하고 있지만, 문장 추론과 기호 계산이 어떻게 서로 협력하는지는 모델 스스로가 배워야 한다. 연구팀은 코드 실행기(Code Interpreter)의 훈련이 모델의 능력에 제한을 받는다는 것을 발견했다. 예를 들어, 많은 모델들이 과도한 문장 추론 훈련 후에 코드 생성 능력이 오히려 저하되는 경우가 있다. 이 능력 저하는 Leetcode와 같은 특정 코드 벤치마크에서는 잘 드러나지 않을 수 있다. 왜냐하면 저하된 부분은 실제로 추상적인 문제를 코드 또는 기호 계산으로 변환하는 단계에서 발생하기 때문이다. 실제 생활에서도 많은 문제가 기호 계산의 요소를 포함하고 있지만, 이를 기호 계산 문제로 추상화하기 위해서는 많은 사고 과정이 필요하다. 또한, 작업의 다양성은 또 다른 도전 과제이다. 개별 작업에 대한 코드 실행 시스템을 훈련시키는 것은 쉽지만, 다양한 종류의 작업이 섞여 있을 때 모델은 각 작업에 따라 적절한 전략을 결정하는 데 어려움을 겪는다. 많은 작업들은 서로 반대되는 전략을 선호하기도 한다. 이에 따라 연구팀은 강화 학습만으로는 좋은 성능을 얻기 어렵다는 결론을 내렸다. 이는 수학적 작업이나 검색 작업에서 강화 학습을 사용하여 훈련하는 것과는 다르다. "따라서, SFT 단계는 우리 연구팀의 작업에서 매우 중요하다"라고 천용초는 말했다. 천용초는 미래의 대형 언어 모델(Large Language Models, LLMs) 기반 에이전트나 구현 지능 시스템이 많은 작업에서 기호 계산을 통합해야 할 것이라고 믿는다. 예를 들어, 로봇공학 분야의 많은 연구자들은 "미래의 모델은 시각 언어에서 행동이 아닌 시각 언어에서 제어로 이어질 것"이라고 주장한다. 가상 세계에서 이 기술의 적용이 가장 먼저 이루어질 것으로 예상된다. 여행 계획, 웹 작업, 그리고 다양한 과학 문제 해결 등이다. 또한, 많은 작업은 기호 계산이 필요하지 않더라도 코드 실행이 필요한 경우가 있으며, 이는 작업 중 시각화를 위한 그래프 그리기와 같은 장면에서 특히 중요하다. 이 연구 이전에, 연구팀은 ICRA 2024에서 발표된 AutoTAMP[1]와 NAACL 2025에서 발표된 TravelPlanner[2]를 통해 대형 언어 모델과 기호 계산 도구를 결합하여 로봇과 여행 계획 문제를 해결했다. 이러한 접근법은 효과적이었지만, 일반화 능력에 한계가 있었다. 예를 들어, 다른 작업 요구사항에 직면했을 때 필요한 알고리즘과 프레임워크가 달라져, 각 장면마다 프레임워크를 설계하는 것은 매우 제한적이었다. 현재 대형 언어 모델이 큰 주목을 받는 이유 중 하나는 바로 뛰어난 일반화 능력 때문인데, 연구팀은 이 일반화 능력을 유지하면서도 기호 계산을 수행할 수 있는 방법을 고민해왔다. 2024년, 천용초는 마이크로소프트 연구소에서 인턴십을 하면서 코드를 매개로 하여 다양한 알고리즘, 제어기, 그리고 계획기를 결합하는 아이디어를 처음으로 떠올렸다. 기호 계산은 사람이 미리 설정한 규칙 언어에서 다양한 알고리즘을 호출하는 것이므로, 예를 들어 프로그래밍 언어, 제어기, 계획 탐색 방법 등을 활용한다. 또한, 현재의 대형 언어 모델은 훈련 후 코드 작성 능력을 자연스럽게 갖추는 경향이 있다. 따라서, 연구팀은 대형 언어 모델이 코드 실행기를 자연스럽고 효율적으로 활용하면서, 문장 추론과 기호 계산 사이에서 유연하게 전환할 수 있다면 다양한 추론 및 계획 작업을 매우 효율적으로 처리할 수 있을 것으로 생각했다. 이때, 코드 실행 여부와 어떤 알고리즘을 선택할지는 모델 스스로가 결정하므로 일반화 능력에 손실이 없다. 이 방향을 명확히 하기 위해, 연구팀은 먼저 OpenAI의 Code-Interpreter를 테스트하여 그 한계점을 확인했다. GPT-4o+ 코드 실행기에 대해 많은 문제가 발견되었는데, 일부 작업은 명백히 코드 생성으로 해결하는 것이 더 나은데도 불구하고 모델이 문장 추론을 선택하여 오류를 초래하는 경우가 많았다. 또한, 힌트를 조정하여 모델이 코드를 생성하도록 유도하더라도, 생성된 코드가 종종 무효한 코드를 포함하여 기호 계산을 충분히 활용하지 못하는 경우가 있었다. 최신의 추론 모델인 o1, o3, 그리고 DeepSeek-R1에서도 같은 문제가 발견되었다. 이러한 문제점을 해결하기 위해, 연구팀은 두 가지 방향으로 접근했다. 첫째, 주 모델의 생성을 안내하는 보조 모델을 추가로 훈련시키는 방법으로, 보조 모델은 크기와 훈련 난이도가 훨씬 작으며, 주 모델의 최고 성능을 탐지하는 데 유용하다. 둘째, 단일 모델을 직접 미세 조정하여 순수한 문장 추론과 기호 계산 능력을 동시에 갖추도록 하는 방법으로, 이는 기초 모델의 능력 요구가 높다. 연구팀은 처음에는 첫 번째 방법을 시도하며, GPT-4o를 8B 모델의 안내 아래 훈련시킨 CodeSteer[4]는 기호 계산을 효과적으로 활용하여 많은 추론 및 계획 문제를 해결할 수 있었으며, o1과 DeepSeek-R1보다 많은 작업에서 더 좋은 성능을 보였다. 두 번째 방법은 이번 R1-Code-Interpreter 연구에서 탐구한 것이다. 이를 통해 관련 논문 'R1-Code-Interpreter: 감독 학습과 강화 학습을 통해 대형 언어 모델의 코드 추론 능력을 훈련시키기'가 arXiv에 게재되었다[5]. 천용초는 미래의 대형 언어 모델이 추론 및 계획 작업을 수행할 때 세 가지 방법을 자유롭게 선택하고 연결할 수 있어야 한다고 믿는다. 1) 직접 답변을 생성하는 경우, 대형 언어 모델의 문장 추론이나 로봇의 시각 언어 제어(VLA) 신호 생성; 2) 외부 도구를 호출하는 경우(tool use); 3) 적절한 도구를 생성하기 위해 코드를 생성하는 경우. 그는 앞으로 이 세 가지 모드를 모두 통합하는 방법을 탐구할 계획이며, 구체적인 실제 응용 작업에서 더 나은 성능을 달성하여 이 아이디어의 실현 가능성을 검증하고자 한다. 업계에서는 이 연구가 대형 언어 모델의 일반화 능력을 유지하면서도 기호 계산을 효과적으로 수행하는 데 중요한 진전을 이루었다고 평가한다. 천용초와 그의 팀이 제안한 접근법은 다양한 추론 및 계획 작업에서 모델의 성능을 크게 향상시킬 것으로 기대되며, 특히 복잡한 문제 해결이 필요한 분야에서 그 가치가 부각될 것으로 보인다. 천용초는 "이 연구를 통해 대형 언어 모델이 더욱 효율적이고 유연하게 다양한 작업을 처리할 수 있게 될 것"이라고 밝혔다. 참고 자료: 1. https://arxiv.org/abs/2306.06531 2. https://aclanthology.org/2025.naacl-long.176/ 3. https://openreview.net/forum?id=5X5Z7Ffrjb 4. https://arxiv.org/abs/2502.04350 5. https://arxiv.org/abs/2505.21668