日付

1年前

サイズ

5.21 MB

データセット構成

公開URL

github.com

Paper URL

arxiv.org

タグ

数学

ComplexFuncBench は Complex Function Calling Benchmark の略で、複雑な関数呼び出しシナリオにおける大規模言語モデル (LLM) の機能を評価するために使用されるベンチマークデータセットです。このデータセットは、2025 年に Zhipu AI と清華大学の研究者によって開発され、マルチステップおよび制限された関数呼び出しに関して既存のベンチマークテストのギャップを埋めることを目的としています。関連する論文の結果は「」です。ComplexFuncBench: ロングコンテキストシナリオでのマルチステップおよび制約付き関数呼び出しの調査”。

このデータセットは、5 つの現実世界のシナリオにおける 1,000 個の複雑な関数呼び出しサンプルをカバーしています。これには、600 個の単一ドメインサンプル、ホテル、航空券、レンタカー、景勝地のそれぞれ 150 個、および 400 個のクロスドメインサンプルが含まれます。タクシードメインには 2 つの機能しかないため、ドメインをまたいでのみ使用されます。既存のベンチマークと比較すると、ComplexFuncBench には、長いパラメーターのアーカイブ、パラメーター値の推論、および 128k の長いコンテキストを必要とする、マルチステップの制約された関数呼び出しが含まれています。

ComplexFuncBench.torrent

シーディング 0ダウンロード中 1完了 82総ダウンロード数 225

ComplexFuncBench/
- README.md
  1.6 KB
- README.txt
  3.2 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

ダウンロード

Discordで議論

日付

1年前

サイズ

5.21 MB

データセット構成

公開URL

github.com

Paper URL

arxiv.org

タグ

数学

ComplexFuncBench.torrent

シーディング 0ダウンロード中 1完了 82総ダウンロード数 225

ComplexFuncBench/
- README.md
  1.6 KB
- README.txt
  3.2 KB

モバイルアクションモバイル関数呼び出しデータセット

1ヶ月前

NAMD_Benchmark 分子動力学パフォーマンスベンチマークデータセット

3ヶ月前

UNO-Bench フルモーダル評価ベンチマークデータセット

3ヶ月前

9.71 GB69

MUVR マルチモーダル非クロップ動画検索ベンチマーク

2ヶ月前

PolypSense3D ポリープサイズ認識データセット

2ヶ月前

VenusBench-GD クロスプラットフォームインターフェースデータセットの理解

1ヶ月前

DetectiumFire マルチモーダル火災理解データセット

2ヶ月前

HumanSenseベンチマークデータセット

3ヶ月前

VOccl3D 3D ヒューマンオクルージョンビデオデータセット

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

ComplexFuncBench 複合関数呼び出し評価データ セット

AIでAIを構築

HyperAI Newsletters

Command Palette

ComplexFuncBench 複合関数呼び出し評価データ セット

関連 データセット

モバイルアクションモバイル関数呼び出しデータセット

NAMD_Benchmark 分子動力学パフォーマンスベンチマークデータセット

UNO-Bench フルモーダル評価ベンチマークデータセット

MUVR マルチモーダル非クロップ動画検索ベンチマーク

PolypSense3D ポリープサイズ認識データセット

VenusBench-GD クロスプラットフォームインターフェースデータセットの理解

DetectiumFire マルチモーダル火災理解データセット

HumanSenseベンチマークデータセット

VOccl3D 3D ヒューマンオクルージョンビデオデータセット

AIでAIを構築

HyperAI Newsletters

Command Palette

ComplexFuncBench 複合関数呼び出し評価データ セット

関連 データセット

モバイルアクションモバイル関数呼び出しデータセット

NAMD_Benchmark 分子動力学パフォーマンスベンチマークデータセット

UNO-Bench フルモーダル評価ベンチマークデータセット

MUVR マルチモーダル非クロップ動画検索ベンチマーク

PolypSense3D ポリープサイズ認識データセット

VenusBench-GD クロスプラットフォームインターフェースデータセットの理解

DetectiumFire マルチモーダル火災理解データセット

HumanSenseベンチマークデータセット

VOccl3D 3D ヒューマンオクルージョンビデオデータセット

AIでAIを構築

HyperAI Newsletters

関連 データセット

モバイルアクションモバイル関数呼び出しデータセット

NAMD_Benchmark 分子動力学パフォーマンスベンチマークデータセット

UNO-Bench フルモーダル評価ベンチマークデータセット

MUVR マルチモーダル非クロップ動画検索ベンチマーク

PolypSense3D ポリープサイズ認識データセット

VenusBench-GD クロスプラットフォームインターフェースデータセットの理解

DetectiumFire マルチモーダル火災理解データセット

HumanSenseベンチマークデータセット

VOccl3D 3D ヒューマンオクルージョンビデオデータセット

関連 データセット

モバイルアクションモバイル関数呼び出しデータセット

NAMD_Benchmark 分子動力学パフォーマンスベンチマークデータセット

UNO-Bench フルモーダル評価ベンチマークデータセット

MUVR マルチモーダル非クロップ動画検索ベンチマーク

PolypSense3D ポリープサイズ認識データセット

VenusBench-GD クロスプラットフォームインターフェースデータセットの理解

DetectiumFire マルチモーダル火災理解データセット

HumanSenseベンチマークデータセット

VOccl3D 3D ヒューマンオクルージョンビデオデータセット

ComplexFuncBench 複合関数呼び出し評価データセット

ComplexFuncBench 複合関数呼び出し評価データセット

関連データセット

ComplexFuncBench 複合関数呼び出し評価データセット

関連データセット

関連データセット

関連データセット