Command Palette

Search for a command to run...

한 달 전

MCPMark: 실제적이고 종합적인 MCP 사용을 위한 스트레스 테스트 기준

MCPMark: 실제적이고 종합적인 MCP 사용을 위한 스트레스 테스트 기준

초록

MCP는 대규모 언어모델(LLM)이 외부 시스템과 상호작용하는 방식을 표준화하며, 일반 목적의 에이전트 기반 시스템의 기반을 마련한다. 그러나 기존의 MCP 평가 기준은 범위가 좁은 편이다. 대부분 읽기 중심의 작업이나 상호작용 깊이가 제한된 작업에 초점을 맞추고 있어, 실제 워크플로우의 복잡성과 현실성을 충분히 반영하지 못하고 있다. 이러한 격차를 보완하기 위해, 보다 현실적이고 포괄적인 관점에서 MCP 활용을 평가할 수 있도록 설계된 MCPMark을 제안한다. MCPMark는 분야 전문가와 AI 에이전트가 공동으로 개발한 총 127개의 고품질 작업으로 구성되어 있으며, 각 작업은 철저히 선별된 초기 상태를 기반으로 하며, 자동 검증을 위한 프로그래밍 스크립트를 포함한다. 이러한 작업들은 환경과의 더 풍부하고 다양한 상호작용을 요구하며, 생성(Create), 조회(Read), 수정(Update), 삭제(Delete)를 아우르는 다양한 CRUD 작업을 포함한다. 우리는 도구 호출 루프를 수행하는 최소한의 에이전트 프레임워크를 활용해 최신 LLM의 성능을 종합적으로 평가하였다. 실험 결과, 가장 우수한 성능을 보인 모델인 gpt-5-medium도 pass@1 기준으로 52.56%, pass^4 기준으로 33.86%에 그치는 것으로 나타났으며, claude-sonnet-4와 o3 등 널리 인정받는 강력한 모델들도 pass@1 기준 30% 미만, pass^4 기준 15% 미만의 성능을 보였다. 평균적으로 LLM은 한 작업당 16.2회의 실행 전환과 17.4회의 도구 호출을 필요로 하며, 이는 이전의 MCP 평가 기준과 비교해 크게 높은 수준으로, MCPMark가 실제 시스템에 대한 강도 높은 검증 테스트임을 시사한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
MCPMark: 실제적이고 종합적인 MCP 사용을 위한 스트레스 테스트 기준 | 연구 논문 | HyperAI초신경