HyperAI초신경
Back to Headlines

Together AI, DeepSWE 출시: Qwen3-32B 기반 RL 학습으로 SWEBench 59% 성능 달성

하루 전

Together AI가 DeepSWE를 발표: Qwen3-32B 기반의 완전 오픈소스 강화학습(RL) 코드 생성 에이전트 Together AI는 최첨단, 완전 오픈소스 소프트웨어 엔지니어링 에이전트인 DeepSWE를 출시했습니다. 이 에이전트는 강화학습(RL)을 통해 완전히 훈련되었으며, Qwen3-32B 언어 모델을 기반으로 하고 있습니다. DeepSWE는 SWEBench-Verified 벤치마크에서 59%의 정확도를 달성했으며, Pass@1 평가에서는 42.2%를 기록해 오픈 웨이트 모델 중에서 최고 성능을 보여주었습니다. 이 출시는 Together AI가 전통적인 사전 훈련 파이프라인에서 벗어나, 실제 피드백을 통해 지속적으로 학습하고 개선되는 자율 언어 에이전트를 만드는 방향으로 변화한 것을 의미합니다. 강화학습과 코드 생성의 만남 DeepSWE는 rLLM, Agentica가 언어 에이전트용으로 특별히 설계한 모듈식 강화학습 프레임워크를 사용하여 Qwen3-32B 기초 모델을 후처리 훈련한 결과물입니다. 일반적인 감독 학습 미세 조정 접근법과 달리, rLLM은 에이전트가 경험을 통해 실제 워크플로에 적응할 수 있게 합니다. DeepSWE는 복잡한 소프트웨어 엔지니어링 작업을 해결하기 위해 피드백 주도 루프를 통해 훈련되었습니다. 훈련 파이프라인은 Agentica의 R2EGym 데이터셋을 포함합니다. 이 데이터셋은 RL 스타일 에이전트 개발을 위한 소프트웨어 엔지니어링 벤치마크로, 버그 수정, 함수 완성, 코드 편집 등 행동 중심 목표를 가지고 언어 모델을 훈련시키는 데 중점을 둡니다. 이는 인간 엔지니어가 결과에서 학습하고 반복적으로 작업하는 방식과 유사합니다. 성능 벤치마크와 능력 SWEBench-Verified는 소프트웨어 엔지니어링 에이전트를 위한 가장 엄격한 벤치마크입니다. DeepSWE는 이 벤치마크에서 테스트 시간 스케일링으로 59%의 점수를 얻었습니다. 이는 이전 오픈 웨이트 모델들보다 크게 우수한 성능입니다. Pass@1 평가, 즉 에이전트가 첫 시도에서 문제를 올바르게 해결할 확률을 측정하는 지표에서는 42.2%라는 인상적인 성적을 거두었습니다. 이러한 결과는 RL 기반 훈련이 반복 추론과 정확한 출력이 요구되는 코드 합성 같은 분야에서 에이전트의 행동 능력을 향상시키는 데 큰 영향을 미친다는 사실을 강조합니다. Qwen3-32B에서 상속받은 모델 아키텍처는 효과적으로 스케일을 확장하면서도 실제 world 애플리케이션에 적합하도록 설계되었습니다. 완전한 오픈소스와 재현성 이 출시의 특징 중 하나는 완전한 투명성입니다. Together AI와 Agentica는 DeepSWE 모델뿐만 아니라 rLLM 프레임워크, R2EGym 데이터셋, 훈련 구성 스크립트까지 모든 훈련 레시피를 오픈소스로 제공했습니다. 이로 인해 재현성이 증진되고, 연구 및 개발 커뮤니티가 제약 없이 DeepSWE를 확장하거나 개선할 수 있게 되었습니다. 개발자들은 다음 경로를 통해 DeepSWE와 rLLM에 접근할 수 있습니다: 언어 추론에서 언어 에이전트로의 전환 DeepSWE는 철학적이고 실질적인 전환을 대표합니다. 전통적인 LLM들은 강력한 추론 능력을 보여주지만, 피드백에 적응하거나 사용하면서 개선하는 능력이 부족했습니다. 강화학습은 이러한 모델들이 출시 시에 우수한 성능을 발휘하는 것뿐만 아니라, 새로운 문제 분포와 도메인에 적응하며 시간이 지남에 따라 더욱 개선될 수 있도록 합니다. 이 접근법은 로컬 배포에도 문호를 열었습니다. DeepSWE가 완전 오픈소스이며 모듈식으로 설계되어 있어, 개발자와 연구자들은 조직 고유의 용도를 위해 DeepSWE를 확장하고 재훈련할 수 있습니다. rLLM을 사용하여 웹 네비게이션, 로보틱스, 자동 연구 지원 등 다양한 도메인에서 자신의 에이전트를 구축할 수 있습니다. 결론 DeepSWE는 생성형 AI의 소프트웨어 엔지니어링 적용 분야에서 중요한 이정표입니다. Qwen3-32B와 같은 대형 언어 모델에 강화학습을 적용하고 전체 훈련 인프라를 공개함으로써, Together AI는 단순히 사전 훈련되어 배포되는 에이전트가 아닌, 지속적으로 훈련되고 개선되는 미래를 열었습니다. 언어 이해에서 행동 중심의 에이전트로의 도약은 프로그래밍, 자동화, 지능형 시스템 설계 등 여러 분야에서 중요한 의미를 가집니다. 업계 전문가들은 DeepSWE의 출시가 오픈소스 커뮤니티와 소프트웨어 엔지니어링 산업에 긍정적인 영향을 미칠 것으로 평가하고 있습니다. 강화학습을 통한 지속적인 개선 능력과 모듈식 설계는 다양한 응용 분야에서 혁신을 견인할 가능성이 크다고 봅니다. 이를 통해 Together AI는 AI 기술의 진보와 확산에 크게 기여할 것으로 기대됩니다.

Related Links