Établir les meilleures pratiques pour la construction de benchmarks rigoureux et agencés

Les benchmarks sont essentiels pour suivre de manière quantitative les progrès dans le domaine de l'IA. À mesure que les agents d'IA deviennent de plus en plus performants, les chercheurs et les praticiens ont introduit des benchmarks agents pour évaluer ces agents sur des tâches complexes et réelles. Ces benchmarks mesurent généralement les capacités des agents en évaluant les résultats des tâches à travers des designs de récompense spécifiques. Cependant, nous montrons que de nombreux benchmarks agents présentent des problèmes dans la configuration des tâches ou dans le design des récompenses. Par exemple, SWE-bench Verified utilise un nombre insuffisant de cas de test, tandis que TAU-bench considère les réponses vides comme réussies. De tels problèmes peuvent conduire à une sous- ou surestimation des performances des agents allant jusqu'à 100% en termes relatifs. Pour rendre l'évaluation agente rigoureuse, nous introduisons la Liste de Vérification des Benchmarks Agents (ABC), un ensemble de lignes directrices que nous avons synthétisées à partir de notre expérience dans la construction de benchmarks, d'une enquête sur les meilleures pratiques et des problèmes précédemment signalés. Lorsqu'elle est appliquée au CVE-Bench, un benchmark doté d'un design d'évaluation particulièrement complexe, l'ABC réduit la surestimation des performances de 33%.