HyperAI
vor 6 Tagen

Best Practices für die Erstellung strenger agenter Benchmarks aufbauen

Yuxuan Zhu, Tengjun Jin, Yada Pruksachatkun, Andy Zhang, Shu Liu, Sasha Cui, Sayash Kapoor, Shayne Longpreet al
Best Practices für die Erstellung strenger agenter Benchmarks aufbauen
Abstract

Benchmarks sind essentiell für die quantitative Verfolgung von Fortschritten im Bereich KI. Mit der zunehmenden Leistungsfähigkeit von KI-Agenten haben Forscher und Praktiker agentebasierte Benchmarks eingeführt, um Agenten bei komplexen, realweltlichen Aufgaben zu bewerten. Diese Benchmarks messen in der Regel die Fähigkeiten der Agenten, indem sie die Ergebnisse der Aufgaben durch spezifische Belohnungsdesigns evaluiert. Wir zeigen jedoch, dass viele agentebasierte Benchmarks Probleme in der Aufgabenstellung oder dem Belohnungsdesign aufweisen. Zum Beispiel verwendet SWE-bench Verified unzureichende Testfälle, während TAU-bench leere Antworten als erfolgreich zählt. Solche Probleme können dazu führen, dass die Leistung der Agenten um bis zu 100 % in relativen Begriffen unterschätzt oder überschätzt wird. Um eine strenge Bewertung von Agenten sicherzustellen, stellen wir das Agentic Benchmark Checklist (ABC) vor, ein Satz von Richtlinien, den wir aus unserer Erfahrung im Erstellen von Benchmarks, einer Übersicht über beste Praktiken und früher gemeldeten Problemen synthetisiert haben. Wenn auf CVE-Bench angewendet, einem Benchmark mit besonders komplexem Evaluationsdesign, reduziert ABC die Leistungsüberschätzung um 33 %.