Nexus: 복잡한 작업 자동화를 위한 경량화 및 확장 가능한 다중 에이전트 프레임워크

최근 대규모 언어 모델(Large Language Models, LLMs)의 발전은 다중 에이전트 시스템(Multi-Agent Systems, MASs)의 능력을 획기적으로 향상시켰으며, 단순한 작업 자동화를 넘어서 인간에 가까운 추론 능력을 활용할 수 있는 시스템 구현이 가능해졌다. 이를 실현하기 위해 LLM 기반 MAS는 다음과 같은 두 가지 핵심 원칙을 기반으로 설계되어야 한다: (i) 특정 작업 또는 관련 작업 집합에 대해 LLM의 잠재력을 극대화할 수 있는 견고한 아키텍처, 그리고 (ii) LLM이 작업을 수행하고 정보를 효율적으로 관리할 수 있도록 필요한 능력을 부여하는 효과적인 방법론. 명백하게도, 사전에 고정된 아키텍처 설계는 특정 MAS의 확장성과 도메인 적응성에 한계를 초래할 수 있다.이러한 문제를 해결하기 위해 본 논문에서는 LLM 기반 MAS를 간편하게 구축하고 관리할 수 있도록 설계된 경량 Python 프레임워크인 Nexus를 제안한다. Nexus는 다음과 같은 혁신적인 특징을 제공한다: (i) 유연한 다중 감독자 계층 구조, (ii) 간소화된 워크플로우 설계, (iii) 설치 용이성 및 오픈소스 유연성: Nexus는 pip를 통해 쉽게 설치 가능하며, 관대한 오픈소스 라이선스 하에 배포되어 사용자가 자유롭게 기능을 수정하고 확장할 수 있다.실험 결과에 따르면, Nexus를 기반으로 구축된 아키텍처는 다양한 도메인에서 최첨단 성능을 보였다. 코딩 작업에서는 HumanEval에서 99%의 통과율을 달성했으며, VerilogEval-Human에서는 완벽한 100%의 성능을 기록하여 o3-mini 및 DeepSeek-R1과 같은 최신 추론 기반 언어 모델을 뛰어넘었다. 또한 복잡한 추론 및 수학 문제 해결 능력에서도 뛰어난 실력을 보였으며, MATH 데이터셋에서 무작위로 선택한 모든 문제에 대해 정확한 해답을 도출했다. 다목적 최적화 영역에서는 VTR 벤치마크 세트의 설계에서 도전적인 타이밍 클로저 문제를 성공적으로 해결했으며, 평균적으로 약 30%의 전력 절감 효과를 보장했다.