ComplexFuncBench 复杂函数调用评估数据集
ComplexFuncBench 全称为 Complex Function Calling Benchmark,是一个用于评估大语言模型 (LLMs) 在复杂函数调用场景下的能力基准测试数据集。该数据集由智谱 AI 和清华大学的研究人员于 2025 年开发,旨在填补现有基准测试在多步骤和受限函数调用方面的空白,相关论文成果为「ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario」。
数据集涵盖了 5 个现实场景中的 1k 个复杂函数调用样本,其中单域样本 600 个,酒店、航班、租车、景点各 150 个,跨域样本 400 个。出租车域只有 2 个函数,所以只用于跨域。与现有基准相比,ComplexFuncBench 包含多步骤和受约束的函数调用,需要长参数归档、参数值推理和 128k 长的上下文。
ComplexFuncBench.torrent
做种 0正在下载 1已完成 15总下载次数 29