HyperAIHyperAI

Command Palette

Search for a command to run...

ComplexFuncBench-Datensatz Zur Auswertung Komplexer Funktionsaufrufe

Datum

vor 9 Monaten

Größe

5.21 MB

Organisation

Tsinghua-Universität

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

ComplexFuncBench steht für Complex Function Calling Benchmark, ein Benchmark-Datensatz zur Bewertung der Fähigkeiten großer Sprachmodelle (LLMs) in komplexen Funktionsaufrufszenarien. Der Datensatz wurde 2025 von Forschern von Zhipu AI und der Tsinghua-Universität entwickelt, um die Lücken in bestehenden Benchmarks in Bezug auf mehrstufige und eingeschränkte Funktionsaufrufe zu schließen. Die relevanten Papierergebnisse sind "ComplexFuncBench: Untersuchung mehrstufiger und eingeschränkter Funktionsaufrufe in einem Szenario mit langem Kontext".

Der Datensatz umfasst 1.000 Beispiele für komplexe Funktionsaufrufe in 5 realen Szenarien, darunter 600 Beispiele für einzelne Domänen, jeweils 150 für Hotels, Flüge, Mietwagen und Attraktionen sowie 400 Beispiele für mehrere Domänen. Die Taxidomäne hat nur 2 Funktionen, daher wird sie nur domänenübergreifend verwendet. Im Vergleich zu vorhandenen Benchmarks enthält ComplexFuncBench mehrstufige und eingeschränkte Funktionsaufrufe, erfordert lange Argumentarchive, Parameterwertinferenz und einen 128 KB langen Kontext.

ComplexFuncBench.torrent
Seeding 0Herunterladen 1Abgeschlossen 64Gesamtdownloads 155
  • ComplexFuncBench/
    • README.md
      1.6 KB
    • README.txt
      3.2 KB
      • data/
        • bench.zip
          5.21 MB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ComplexFuncBench-Datensatz Zur Auswertung Komplexer Funktionsaufrufe | Datensätze | HyperAI