ComplexFuncBench-Datensatz Zur Auswertung Komplexer Funktionsaufrufe
Datum
Größe
Veröffentlichungs-URL
Tags
Kategorien
ComplexFuncBench steht für Complex Function Calling Benchmark, ein Benchmark-Datensatz zur Bewertung der Fähigkeiten großer Sprachmodelle (LLMs) in komplexen Funktionsaufrufszenarien. Der Datensatz wurde 2025 von Forschern von Zhipu AI und der Tsinghua-Universität entwickelt, um die Lücken in bestehenden Benchmarks in Bezug auf mehrstufige und eingeschränkte Funktionsaufrufe zu schließen. Die relevanten Papierergebnisse sind "ComplexFuncBench: Untersuchung mehrstufiger und eingeschränkter Funktionsaufrufe in einem Szenario mit langem Kontext".
Der Datensatz umfasst 1.000 Beispiele für komplexe Funktionsaufrufe in 5 realen Szenarien, darunter 600 Beispiele für einzelne Domänen, jeweils 150 für Hotels, Flüge, Mietwagen und Attraktionen sowie 400 Beispiele für mehrere Domänen. Die Taxidomäne hat nur 2 Funktionen, daher wird sie nur domänenübergreifend verwendet. Im Vergleich zu vorhandenen Benchmarks enthält ComplexFuncBench mehrstufige und eingeschränkte Funktionsaufrufe, erfordert lange Argumentarchive, Parameterwertinferenz und einen 128 KB langen Kontext.