Command Palette

Search for a command to run...

2달 전

MCP-Bench: MCP 서버를 통한 복잡한 실세계 작업을 수행하는 도구 사용 LLM 에이전트 평가를 위한 벤치마크 도구

MCP-Bench: MCP 서버를 통한 복잡한 실세계 작업을 수행하는 도구 사용 LLM 에이전트 평가를 위한 벤치마크 도구

초록

우리는 도구 사용, 도구 간 협업, 정밀한 파라미터 조절, 그리고 작업 해결을 위한 계획 및 추론이 요구되는 현실적이고 다단계 작업에서 대규모 언어 모델(LLM)을 평가하기 위한 벤치마크인 MCP-Bench를 소개한다. MCP-Bench는 모델 컨텍스트 프로토콜(MCP) 기반으로 구축되었으며, 금융, 여행, 과학 계산, 학술 검색 등 다양한 분야에 걸쳐 총 250개의 도구를 제공하는 28개의 대표적 실시간 MCP 서버와 연동되어 있다. 기존의 API 기반 벤치마크와 달리, 각 MCP 서버는 서로 보완적으로 작동하도록 설계된 도구 세트를 제공함으로써, 풍부한 입력-출력 결합 관계를 가진 실제적인 다단계 작업을 구축할 수 있도록 한다. MCP-Bench의 작업들은 명시적인 도구 이름 없이 흐릿한 지시사항에서 관련 도구를 탐색하는 능력, 복잡한 목표를 위한 다단계 실행 경로를 계획하는 능력, 중간 도구 출력에 기반한 응답을 생성하는 능력, 그리고 도메인 간 워크플로우를 조율하는 능력을 테스트한다. 이러한 능력들은 기존 벤치마크가 명시적인 도구 사양에 의존하고, 얕은 몇 단계의 워크플로우와 독립적인 도메인 작업에 국한되어 있어 충분히 평가되지 못한 영역이다. 우리는 도구 수준의 스키마 이해 및 활용, 경로 수준의 계획, 작업 완료 여부를 포함하는 다각적 평가 프레임워크를 제안한다. 20개의 고급 LLM에 대한 실험 결과, MCP-Bench에서 지속적인 도전 과제가 존재함을 확인할 수 있었다. 코드 및 데이터: https://github.com/Accenture/mcp-bench.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
MCP-Bench: MCP 서버를 통한 복잡한 실세계 작업을 수행하는 도구 사용 LLM 에이전트 평가를 위한 벤치마크 도구 | 연구 논문 | HyperAI초신경