Datum

vor einem Jahr

Größe

5.21 MB

Organisation

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

Tags

Mathematik

ComplexFuncBench steht für Complex Function Calling Benchmark, ein Benchmark-Datensatz zur Bewertung der Fähigkeiten großer Sprachmodelle (LLMs) in komplexen Funktionsaufrufszenarien. Der Datensatz wurde 2025 von Forschern von Zhipu AI und der Tsinghua-Universität entwickelt, um die Lücken in bestehenden Benchmarks in Bezug auf mehrstufige und eingeschränkte Funktionsaufrufe zu schließen. Die relevanten Papierergebnisse sind "ComplexFuncBench: Untersuchung mehrstufiger und eingeschränkter Funktionsaufrufe in einem Szenario mit langem Kontext". Der Datensatz umfasst 1.000 Beispiele für komplexe Funktionsaufrufe in 5 realen Szenarien, darunter 600 Beispiele für einzelne Domänen, jeweils 150 für Hotels, Flüge, Mietwagen und Attraktionen sowie 400 Beispiele für mehrere Domänen. Die Taxidomäne hat nur 2 Funktionen, daher wird sie nur domänenübergreifend verwendet. Im Vergleich zu vorhandenen Benchmarks enthält ComplexFuncBench mehrstufige und eingeschränkte Funktionsaufrufe, erfordert lange Argumentarchive, Parameterwertinferenz und einen 128 KB langen Kontext.

ComplexFuncBench.torrent

Seeding 0Wird heruntergeladen 1Abgeschlossen 91Gesamtdownloads 238

ComplexFuncBench/
- README.md
  1.6 KB
- README.txt
  3.2 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Download

Auf Discord diskutieren

Datum

vor einem Jahr

Größe

5.21 MB

Organisation

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

vor 2 Monaten

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

vor 2 Monaten

Groundsource Global Flood Events Dataset

vor 3 Monaten

CL-bench Context Learning Evaluation Benchmark-Datensatz

vor 4 Monaten

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

vor 5 Monaten

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

vor 6 Monaten

MCIF Multimodal Cross-Language Instruction Following Dataset

vor 6 Monaten

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

vor 6 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

ComplexFuncBench-Datensatz Zur Auswertung Komplexer Funktionsaufrufe

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ComplexFuncBench-Datensatz Zur Auswertung Komplexer Funktionsaufrufe

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

Groundsource Global Flood Events Dataset

CL-bench Context Learning Evaluation Benchmark-Datensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ComplexFuncBench-Datensatz Zur Auswertung Komplexer Funktionsaufrufe

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

Groundsource Global Flood Events Dataset

CL-bench Context Learning Evaluation Benchmark-Datensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

Groundsource Global Flood Events Dataset

CL-bench Context Learning Evaluation Benchmark-Datensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

Groundsource Global Flood Events Dataset

CL-bench Context Learning Evaluation Benchmark-Datensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz