HyperAI超神经

최근 중국 과학기술대학교 졸업생이자 미국 하버드 대학 박사과정 학생인 천용초와 그의 연구팀은 Qwen-3B/7B/14B 모델을 기반으로, 감독된 세부 조정(Supervised Fine-tuning, SFT)과 집단 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 사용하여 144개의 추론 및 계획 작업에 대한 모델 훈련을 수행했습니다. 이 연구에서는 모델이 필요할 때마다 코드 실행기(Code Interpreter)를 여러 번 자유롭게 사용할 수 있었는데, 이 작업들은 대부분 기호 계산(Symbolic Computation) 요소를 포함하고 있었습니다. 그러나 모델이 스스로 어떤 작업에서 기호 계산이 적합한지, 어떻게 기호 계산과 텍스트 추론을 효과적으로 결합할지는 여전히 학습해야 하는 부분이었습니다. 연구팀은 코드 실행기의 성능이 모델의 능력에 제약받는다는 사실을 발견했습니다. 예를 들어, 많은 모델이 과도한 텍스트 추론 훈련 후 코드 생성 능력이 저하되는 현상을 관찰했습니다. 이 능력 저하는 Leetcode와 같은 특정 코드 벤치마크에서는 잘 드러나지 않지만, 추상적인 문제를 코드 또는 기호 계산으로 변환하는 단계에서 발생합니다. 실제 생활에서도 유사한 문제들이 많이 발견되며, 복잡한 문제를 기호 계산으로 추상화하기 위해서는 많은 고민이 필요합니다. 또한, 다양한 작업을 처리하는 것이 또 다른 도전 과제였습니다. 특정 작업 하나만을 위한 코드 실행 시스템을 훈련시키는 것은 쉽지만, 작업 종류가 다양해질수록 모델이 각각의 작업에 맞는 전략을 결정하는 것이 어려워집니다. 일부 작업은 서로 반대되는 전략을 요구하기도 합니다. 이러한 이유로 연구팀은 강화 학습(Reinforcement Learning)만으로는 만족스러운 결과를 얻기 어렵다고 판단했습니다. 이는 수학 문제나 정보 검색과 같은 작업에서 강화 학습이 효과적이었던 것과는 대조됩니다. 따라서, 천용초는 "SFT 단계가 우리 연구팀의 작업에서 매우 중요하다"고 강조했습니다. 그는 미래에는 대형 모델을 기반으로 하는 에이전트나 구현된 인공지능 시스템이 많은 작업에서 기호 계산을 통합해야 할 것이라고 예측합니다. 예를 들어, 로봇 공학 분야의 학자들은 "미래의 모델은 시각 언어에서 행동으로 바로 이동하는 것이 아니라, 시각 언어에서 제어로 이동할 것"이라고 주장합니다. 가상 세계에서 이를 처음 적용할 수 있을 것으로 보이는데, 여행 계획, 웹 작업, 그리고 다양한 과학적 문제 해결 등이 그 예시입니다. 또한, 많은 작업은 기호 계산이 필요하지 않더라도 코드 실행이 필요한 경우가 많습니다. 예를 들어, 작업 중 그래픽을 그려서 시각화해야 하는 경우 등이 있습니다. 이 연구 이전에, 연구팀은 ICRA 2024에서 발행한 AutoTAMP[1]과 NAACL 2025에서 발행한 TravelPlanner[2]에서 미리 설계된 프레임워크와 알고리즘을 사용하여 대형 모델과 기호 계산 도구를 결합하여 로봇과 여행 계획 문제를 다루었습니다. 이 접근법은 좋은 결과를 가져왔지만, 일반화 성능에 한계가 있다는 점이 포착되었습니다. 예를 들어, 다른 작업 요구사항에 따라 필요한 알고리즘과 프레임워크가 다르기 때문에, 각각의 상황에 맞는 프레임워크를 설계하는 것은 매우 제한적이었습니다. 현재 대형 모델의 인기가 높은 이유 중 하나는 바로 이러한 강력한 일반화 성능 때문입니다. 이를 해결하기 위해, 연구팀은 모델이 기호 계산을 자연스럽게 수행하면서도 일반화 성능을 유지할 수 있는 방법을 고민했습니다. 2024년, 천용초는 마이크로소프트 연구소에서 인턴으로 일하면서 코드를 매개체로 사용하여 다양한 알고리즘, 컨트롤러, 그리고 계획기를 통합하는 아이디어를 떠올렸습니다. 기호 계산은 사람이 미리 설정한 규칙 언어에서 다양한 알고리즘을 호출하는 것이므로, 프로그래밍 언어, 컨트롤러, 계획 탐색 방법 등을 활용할 수 있습니다. 또한, 현재 대형 모델은 훈련 후에 본질적으로 코드 프로그래밍 능력을 가지고 있습니다. 따라서 연구팀은 대형 모델이 자연스럽게 코드 실행기를 활용하고, 텍스트 추론과 기호 계산 사이를 유연하게 전환할 수 있다면, 다양한 추론 및 계획 작업을 효율적으로 처리할 수 있을 것이라고 생각했습니다. 이 방식은 모델이 자주 코드를 생성하고 어떤 알고리즘을 선택할지를 결정함으로써, 일반화 성능을 저하시키지 않습니다. 이 방향을 확립한 후, 연구팀은 현재 오픈AI의 Code-Interpreter를 테스트하여 GPT-4o+ 코드 실행기에 대한 많은 문제점을 발견했습니다. 일부 작업은 명백히 코드 생성을 통해 더 쉽게 해결될 수 있지만, 모델은 텍스트 추론을 선택하여 오류를 일으키는 경우가 많았습니다. 또한, 프롬프트(prompt)를 조정하여 모델이 코드를 생성하도록 유도하더라도, 생성된 코드는 종종 무효적이거나 기호 계산을 충분히 활용하지 못하는 경우가 있었습니다. 최신 추론 모델 o1, o3, 그리고 DeepSeek-R1도 이러한 문제를 가지고 있었습니다. 이 문제들을 해결하기 위해, 연구팀은 두 가지 접근 방식을 시도했습니다. 첫 번째는 보조 모델을 추가로 훈련하여 주 모델의 생성을 안내하는 것입니다. 이 방식의 장점은 보조 모델의 크기와 훈련 난이도가 주 모델보다 훨씬 작으며, 가장 강력한 주 모델을 통해 현재 가능한 최강의 능력을 탐색할 수 있다는 것입니다. 두 번째 방식은 단일 모델을 직접 세부 조정(micro-tuning)하여 순수 텍스트 추론과 기호 계산 능력을 모두 갖추도록 하는 것입니다. 이 방법은 기초 모델의 능력 요구사항이 높습니다. 연구팀은 첫 번째 방법으로 GPT-4o를 8B 모델의 지침 아래에서 효과적으로 기호 계산을 활용하도록 훈련한 CodeSteer[4]를 개발했습니다. CodeSteer는 많은 추론 및 계획 작업에서 o1과 DeepSeek-R1보다 우수한 성능을 보였습니다. 두 번째 방법은 이번 R1-Code-Interpreter 작업에서 탐구한 것입니다. 이 연구 결과는 "R1-Code-Interpreter: 감독 학습과 강화 학습을 통해 대형 언어 모델의 코드 추론 능력 훈련"이라는 제목의 논문으로 arXiv에 게재되었습니다[5]. 천용초는 미래의 대형 모델이 추론과 계획 작업을 수행할 때, 세 가지 방법 모드를 자유롭게 선택하고 연결할 수 있어야 한다고 믿습니다. 1) 직접 답변을 생성하는 방법(대형 모델의 텍스트 추론 또는 로봇의 VLA가 제어 신호를 생성); 2) 외부 도구를 호출하는 방법; 3) 적절한 도구를 생성하기 위해 코드를 생성하는 방법. 그는 앞으로 이 세 가지 모드를 결합하는 방법을 탐색할 계획이며, 구체적인 실제 응용 작업에서 더 나은 성능을 달성하여 이 아이디어의 타당성을 입증할 예정입니다. 참고 문헌: 1. https://arxiv.org/abs/2306.06531 2. https://aclanthology.org/2025.naacl-long.176/ 3. https://openreview.net/forum?id=5X5Z7Ffrjb 4. https://arxiv.org/abs/2502.04350 5. https://arxiv.org/abs/2505.21668 천용초의 연구는 대형 언어 모델이 코드 실행기와 텍스트 추론을 효과적으로 결합하는 방법을 제시하며, 이는 다양한 추론 및 계획 작업에서 모델의 성능을 크게 향상시킬 것으로 기대됩니다. 업계 전문가들은 이 연구가 AI 시스템의 일반화 능력과 효율성을 동시에 증진시키는 중요한 단계라고 평가하고 있습니다. 천용초와 그의 연구팀은 하버드 대학과 마이크로소프트 연구소에서 활동하며, 대형 언어 모델의 발전에 지속적으로 기여하고 있습니다.

연구팀, 대형 모델의 코드 실행 능력 향상 시켜

Related Links