HyperAI

ComplexFuncBench는 Complex Function Calling Benchmark의 약자로, 복잡한 함수 호출 시나리오에서 대규모 언어 모델(LLM)의 기능을 평가하는 데 사용되는 벤치마크 데이터 세트입니다. 이 데이터 세트는 다단계 및 제한된 함수 호출 측면에서 기존 벤치마크의 빈틈을 메우기 위해 2025년에 Zhipu AI와 Tsinghua University의 연구원들이 개발했습니다. 관련 논문 결과는 "ComplexFuncBench: 장기 컨텍스트 시나리오에서 다단계 및 제약 함수 호출 탐색".

이 데이터 세트는 5가지 실제 시나리오에서 1,000개의 복잡한 함수 호출 샘플을 다루며, 여기에는 600개의 단일 도메인 샘플, 호텔, 항공편, 렌터카, 관광 명소별로 각각 150개, 그리고 400개의 교차 도메인 샘플이 포함됩니다. 택시 도메인은 기능이 2개뿐이므로 여러 도메인에서만 사용됩니다. 기존 벤치마크와 비교했을 때, ComplexFuncBench는 여러 단계로 구성되고 제약이 있는 함수 호출을 포함하고 있으며, 긴 인수 아카이브, 매개변수 값 추론 및 128k 길이의 컨텍스트가 필요합니다.

ComplexFuncBench 복합 함수 호출 평가 데이터 세트

AI로 AI 구축

Hyper Newsletters

Command Palette

ComplexFuncBench 복합 함수 호출 평가 데이터 세트

AI로 AI 구축

Hyper Newsletters