HyperAIHyperAI

Command Palette

Search for a command to run...

Best Practices für die Erstellung strenger agenter Benchmarks aufbauen

Yuxuan Zhu Tengjun Jin Yada Pruksachatkun Andy Zhang Shu Liu Sasha Cui Sayash Kapoor Shayne Longpreet al

Zusammenfassung

Benchmarks sind essentiell für die quantitative Verfolgung von Fortschritten im Bereich KI. Mit der zunehmenden Leistungsfähigkeit von KI-Agenten haben Forscher und Praktiker agentebasierte Benchmarks eingeführt, um Agenten bei komplexen, realweltlichen Aufgaben zu bewerten. Diese Benchmarks messen in der Regel die Fähigkeiten der Agenten, indem sie die Ergebnisse der Aufgaben durch spezifische Belohnungsdesigns evaluiert. Wir zeigen jedoch, dass viele agentebasierte Benchmarks Probleme in der Aufgabenstellung oder dem Belohnungsdesign aufweisen. Zum Beispiel verwendet SWE-bench Verified unzureichende Testfälle, während TAU-bench leere Antworten als erfolgreich zählt. Solche Probleme können dazu führen, dass die Leistung der Agenten um bis zu 100 % in relativen Begriffen unterschätzt oder überschätzt wird. Um eine strenge Bewertung von Agenten sicherzustellen, stellen wir das Agentic Benchmark Checklist (ABC) vor, ein Satz von Richtlinien, den wir aus unserer Erfahrung im Erstellen von Benchmarks, einer Übersicht über beste Praktiken und früher gemeldeten Problemen synthetisiert haben. Wenn auf CVE-Bench angewendet, einem Benchmark mit besonders komplexem Evaluationsdesign, reduziert ABC die Leistungsüberschätzung um 33 %.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp