@misc{zhong2025complexfuncbench, title={ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario}, author={Lucen Zhong and Zhengxiao Du and Xiaohan Zhang and Haiyi Hu and Jie Tang}, year={2025}, eprint={2501.10132}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.10132}, }

日期

2 年前

大小

5.21 MB

数据集组织

发布 URL

github.com

论文 URL

arxiv.org

标签

数学

ComplexFuncBench 全称为 Complex Function Calling Benchmark，是一个用于评估大语言模型 (LLMs) 在复杂函数调用场景下的能力基准测试数据集。该数据集由智谱 AI 和清华大学的研究人员于 2025 年开发，旨在填补现有基准测试在多步骤和受限函数调用方面的空白，相关论文成果为「ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario」。数据集涵盖了 5 个现实场景中的 1k 个复杂函数调用样本，其中单域样本 600 个，酒店、航班、租车、景点各 150 个，跨域样本 400 个。出租车域只有 2 个函数，所以只用于跨域。与现有基准相比，ComplexFuncBench 包含多步骤和受约束的函数调用，需要长参数归档、参数值推理和 128k 长的上下文。

Citation

@misc{zhong2025complexfuncbench,
title={ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario},
author={Lucen Zhong and Zhengxiao Du and Xiaohan Zhang and Haiyi Hu and Jie Tang},
year={2025},
eprint={2501.10132},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.10132},
}

ComplexFuncBench.torrent

做种中 0正在下载 3已完成 133总下载量 284

ComplexFuncBench/
- README.md
  1.6 KB
- README.txt
  3.2 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

下载

在 Discord 上讨论

日期

2 年前

大小

5.21 MB

数据集组织

发布 URL

github.com

论文 URL

arxiv.org

标签

数学

Citation

@misc{zhong2025complexfuncbench,
title={ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario},
author={Lucen Zhong and Zhengxiao Du and Xiaohan Zhang and Haiyi Hu and Jie Tang},
year={2025},
eprint={2501.10132},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.10132},
}

ComplexFuncBench.torrent

做种中 0正在下载 3已完成 133总下载量 284

ComplexFuncBench/
- README.md
  1.6 KB
- README.txt
  3.2 KB

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

ComplexFuncBench 复杂函数调用评估数据集

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ComplexFuncBench 复杂函数调用评估数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

Nemotron-SFT-Math-v4 数学推理 SFT 数据集

EAVSD 电商广告视频分镜数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

MemLens 多模态长上下文基准数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

RSRCC 遥感区域变化理解基准数据集

ParseBench 文档解析能力评测数据集

MDPBench 多语言文档解析基准数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

ToolACE 复杂工具学习对话数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ComplexFuncBench 复杂函数调用评估数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

Nemotron-SFT-Math-v4 数学推理 SFT 数据集

EAVSD 电商广告视频分镜数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

MemLens 多模态长上下文基准数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

RSRCC 遥感区域变化理解基准数据集

ParseBench 文档解析能力评测数据集

MDPBench 多语言文档解析基准数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

ToolACE 复杂工具学习对话数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MAKIEVAL 多语言文化知识评估数据集

Nemotron-SFT-Math-v4 数学推理 SFT 数据集

EAVSD 电商广告视频分镜数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

MemLens 多模态长上下文基准数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

RSRCC 遥感区域变化理解基准数据集

ParseBench 文档解析能力评测数据集

MDPBench 多语言文档解析基准数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

ToolACE 复杂工具学习对话数据集

相关数据集

MAKIEVAL 多语言文化知识评估数据集

Nemotron-SFT-Math-v4 数学推理 SFT 数据集

EAVSD 电商广告视频分镜数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

MemLens 多模态长上下文基准数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

RSRCC 遥感区域变化理解基准数据集

ParseBench 文档解析能力评测数据集

MDPBench 多语言文档解析基准数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

ToolACE 复杂工具学习对话数据集