HyperAI초신경
Back to Headlines

Qwen3-32B, 32xH100로 훈련해 터미널 벤치 1위 달성

4일 전

이 프로젝트는 UC 버클리 Sky Lab에서 개발한 rLLM 프레임워크를 기반으로 하여, 터미널 기반의 에이전트를 훈련시키기 위한 맞춤형 환경과 인프라를 확장한 연구입니다. 주요 목표는 Stanford의 TerminalBench 벤치마크에서 Qwen3 모델을 사용해 높은 점수를 기록하는 것입니다. 이 프로젝트에서 사용된 Qwen3-32B 에이전트는 다양한 하드웨어 환경에서 안정적으로 훈련될 수 있도록 설계되었으며, 32개의 H100 GPU를 사용한 대규모 훈련을 통해 성능을 높였습니다. 훈련 과정 중에는 2x A100 GPU에서 60단계 이상의 훈련도 진행하여 코드의 안정성을 검증했습니다. TerminalBench는 복잡한 터미널 및 코딩 작업을 수행하는 에이전트의 능력을 측정하는 벤치마크로, 이 프로젝트에서 개발한 Qwen3-32B 에이전트는 Stanford의 Terminus-Qwen3-235B-30A MoE 에이전트, Deepseek R1, 그리고 OpenAI의 GPT-4.1 Codex 에이전트보다 높은 점수를 기록하며 Qwen3 에이전트 중 최상위를 차지했습니다. 점수는 13.75%로, 이는 상당히 높은 수준입니다. 이 프로젝트는 터미널 기반 작업을 수행하는 데 필요한 도구를 개발하여 에이전트의 성능을 향상시켰습니다. 이 도구는 bash, 파일 운영 등 다양한 기능을 포함하며, XML/YAML 형식을 통해 에이전트와의 통신을 구조화했습니다. 또한, 에이전트가 이러한 도구를 효과적으로 사용할 수 있도록 시스템 메시지를 설계하여 최적의 실행 방식을 유도했습니다. 훈련 과정에서는 GRPO(그룹 상대적 정책 최적화) 알고리즘을 사용하여 복잡한 구조적 추론 작업에 적합한 성능을 향상시켰습니다. 보상 시스템은 두 가지 방법으로 구성되었습니다. 하나는 LLM을 이용한 답변 검증(65% 가중치), 다른 하나는 LLM을 감독자로 삼는 평가(35% 가중치)입니다. 이 감독자 모델은 다양한 LLM을 비교해보고, 적절한 평가 기준을 제공하는 것이 목표였습니다. 결과적으로, Claude Sonnet 4가 가장 높은 정확도를 보여주며, 이는 평가 시스템의 신뢰성을 높였습니다. 이 프로젝트는 훈련 환경을 개별적으로 고립된 Docker 컨테이너로 생성하여, 각 작업이 독립적으로 실행되도록 했습니다. 이는 안정적인 테스트와 코드 검증을 가능하게 했으며, 훈련 중 생성된 Docker 컨테이너는 자동으로 정리되어 리소스를 효율적으로 관리했습니다. 또한, 데이터 생성 및 검증을 위한 다중 에이전트 합성 데이터 파이프라인을 개발하여, 331개의 다양한 복잡도의 훈련 작업을 포함하는 데이터셋을 만들었습니다. 이 프로젝트는 다양한 하드웨어 설정에서 작동할 수 있도록 구성되었으며, 단일 노드에서부터 다중 노드 분산 훈련까지 지원합니다. 훈련 설정은 단순한 프리셋 선택으로 관리되며, 훈련 파라미터는 생산 환경에 적합하게 설정되었습니다. 데이터셋은 CSV 형식으로 구성되어 있으며, 터미널 벤치 작업으로 변환되어 Parquet 형식으로 저장되어 훈련에 사용되었습니다. 이 프로젝트는 기존의 TerminalBench 코드를 기반으로 하되, Python 3.13 대신 3.12로 호환성을 높였습니다. 사용자는 리포지토리를 클론하여 의존성을 설치하면 훈련을 시작할 수 있으며, 훈련 환경과 평가 시스템을 재현할 수 있습니다. 향후 개선 방향으로는 커리큘럼 학습, 데이터셋 확장, 지능형 데이터 필터링 등을 고려하고 있습니다. 현재는 훈련에 필요한 고비용 하드웨어를 활용하지 못해 제한된 결과를 얻었지만, 훈련 코드와 데이터셋은 완성되어 있어 향후 자원이 확보되면 더 높은 성능을 기대할 수 있습니다. 평가 및 회사 정보 이 프로젝트는 터미널 기반 작업을 수행하는 AI 에이전트의 훈련 방법에 대한 혁신적인 접근을 보여줍니다. Qwen3-32B 모델이 높은 성능을 기록한 것은 릴리스된 코드와 데이터셋이 훈련 효율성을 높이기 위해 설계되었음을 보여줍니다. 이는 향후 AI 에이전트 개발에 중요한 기초 자료가 될 수 있습니다. 이 프로젝트는 Qwen3 모델과 관련된 Alibaba Cloud의 연구 및 개발 기반을 반영하고 있으며, 향후 더 많은 연구자와 개발자들이 활용할 수 있도록 공개되어 있습니다.

Related Links