HyperAIHyperAI

Command Palette

Search for a command to run...

控制台

ComplexFuncBench 复杂函数调用评估数据集

日期

1 年前

大小

5.21 MB

组织

清华大学

发布 URL

github.com

论文 URL

arxiv.org

标签

ComplexFuncBench 全称为 Complex Function Calling Benchmark,是一个用于评估大语言模型 (LLMs) 在复杂函数调用场景下的能力基准测试数据集。该数据集由智谱 AI 和清华大学的研究人员于 2025 年开发,旨在填补现有基准测试在多步骤和受限函数调用方面的空白,相关论文成果为「ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario」。

数据集涵盖了 5 个现实场景中的 1k 个复杂函数调用样本,其中单域样本 600 个,酒店、航班、租车、景点各 150 个,跨域样本 400 个。出租车域只有 2 个函数,所以只用于跨域。与现有基准相比,ComplexFuncBench 包含多步骤和受约束的函数调用,需要长参数归档、参数值推理和 128k 长的上下文。

ComplexFuncBench.torrent
播种 0下载中 1已完成 70总下载量 212
  • ComplexFuncBench/
    • README.md
      1.6 KB
    • README.txt
      3.2 KB
      • data/
        • bench.zip
          5.21 MB

用 AI 构建 AI

从构思到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格加速您的 AI 开发。

AI 协同编码
可直接使用的 GPU
最佳价格

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供