LiveMCP-101: MCP 기반 에이전트의 도전적 쿼리에 대한 스트레스 테스트 및 진단

도구 호출은 AI 에이전트가 실제 세계와 상호작용하고 복잡한 작업을 해결하는 데 있어 핵심적인 능력으로 부상하고 있다. 모델 컨텍스트 프로토콜(Model Context Protocol, MCP)은 도구 통합을 위한 강력한 표준화된 프레임워크를 제공하지만, 현실적이고 동적 환경에서 다양한 MCP 도구를 활용해 다단계 작업을 효과적으로 해결할 수 있는 AI 에이전트의 성능을 평가하기 위한 벤치마크는 여전히 부족한 실정이다. 본 연구에서는 웹 검색, 파일 조작, 수학적 추론, 데이터 분석 등 여러 MCP 도구를 조율하여 사용해야 하는 101개의 철저히 선별된 실제 세계의 질의를 포함하는 벤치마크인 LiveMCP-101을 제안한다. 이 벤치마크는 반복적인 LLM 재작성과 수작업 검토를 통해 정제된 것으로, 현실성과 복잡성을 고려하여 구성되었다. 또한, 실제 API 출력값이 아닌 지표 실행 계획(ground-truth execution plans)을 활용하는 새로운 평가 방식을 도입하여, 실제 환경의 동적 변화를 더 정확히 반영한다. 실험 결과, 최전방 LLM들조차도 성공률이 60% 미만에 그치는 것으로 나타나, 도구 조율(orchestration) 측면에서 여전히 큰 도전 과제가 있음을 시사한다. 세부적인 아블레이션 및 오류 분석을 통해 각기 다른 실패 유형과 토큰 사용 효율성 저하 문제를 식별하였으며, 이는 현재 모델의 발전 방향을 구체적으로 제시한다. LiveMCP-101은 실제 세계에서의 에이전트 능력을 평가하기 위한 엄격한 기준을 제시함으로써, 도구를 활용해 복잡한 작업을 신뢰할 수 있게 수행하는 자율형 AI 시스템의 실현에 한걸음 더 다가서고 있다.