SWE-Debate: 소프트웨어 이슈 해결을 위한 경쟁적 다중 에이전트 토론

문제 해결 분야는 대규모 언어 모델(Large Language Models, LLMs)의 고도화된 추론 능력 덕분에 놀라운 진전을 이뤘다. 최근 SWE-agent와 같은 에이전트 기반 프레임워크가 등장하면서, 도구를 활용하는 자율적 에이전트가 복잡한 소프트웨어 공학 작업을 수행할 수 있게 되어 이 분야의 발전이 더욱 가속화되었다. 기존의 에이전트 기반 문제 해결 접근 방식은 주로 에이전트의 독립적인 탐색에 기반하지만, 코드베이스의 다양한 부분에 걸쳐 발생하는 문제 패턴을 식별하기 어려운 경우가 많으며, 국소적인 해결책에 갇히는 문제가 있다. 이러한 한계를 해결하기 위해 우리는 다양한 추론 경로를 촉진하고, 더 통합된 문제 위치 탐지 결과를 도출할 수 있는 경쟁적 다중 에이전트 토론 프레임워크인 SWE-Debate를 제안한다. SWE-Debate는 코드 의존성 그래프를 탐색하여 다수의 결함 전파 경로(fault propagation traces)를 생성함으로써 문제 위치 탐지 후보를 마련한다. 이후, 각각의 에이전트가 결함 전파 경로를 따라 다른 추론 관점을 반영하도록 특화된 전문 에이전트들 간에 3라운드의 토론을 조직한다. 이러한 구조화된 경쟁을 통해 에이전트들은 공동으로 통합된 수정 계획에 도달할 수 있다. 마지막으로, 이 통합된 수정 계획은 MCTS(Monte Carlo Tree Search)-기반 코드 수정 에이전트에 통합되어 패치를 생성한다. SWE-bench 벤치마크에서 수행된 실험 결과, SWE-Debate는 오픈소스 에이전트 프레임워크 분야에서 새로운 최고 성능(SOTA, State-of-the-Art)을 기록하며 기존 베이스라인 대비 상당한 성능 향상을 보였다.