Command Palette
Search for a command to run...
ACES : Qui teste les tests ? La cohérence de l'AUC par validation croisée « Leave-One-Out » pour la Code Generation.
ACES : Qui teste les tests ? La cohérence de l'AUC par validation croisée « Leave-One-Out » pour la Code Generation.
Hui Sun Yun-Ji Zhang Zheng Xie Ren-Biao Liu Yali Du Xin-Ye Li Ming Li
Résumé
Voici la traduction de votre texte en français, en respectant les standards de rigueur scientifique et de terminologie technologique demandés :La sélection de candidats de code générés par des LLM à l'aide de tests également générés par des LLM représente un défi majeur, car les tests eux-mêmes peuvent être incorrects. Les méthodes existantes traitent soit tous les tests de manière équivalente, soit s'appuient sur des heuristiques ad hoc pour filtrer les tests peu fiables. Or, déterminer la justesse d'un test nécessite de savoir préalablement quels codes sont corrects, ce qui crée une dépendance circulaire (circular dependency). Notre intuition fondamentale est qu'il n'est pas nécessaire de déterminer la justesse des tests : les votes des tests doivent servir à classer (rank), et non simplement à compter. Ce qui importe n'est pas le nombre de codes réussissant un test, mais la capacité de ce test à distinguer le code correct du code incorrect. Nous brisons cette dépendance circulaire via une évaluation de type « leave-one-out » : nous isolons un test, nous classons les codes en fonction de leurs scores agrégés sur tous les autres tests restants, puis nous mesurons si le schéma de réussite/échec (pass/fail pattern) du test isolé concorde avec ce classement. Nous formalisons cette concordance sous le nom d'AUC « leave-one-out » (LOO-AUC) et démontrons que l'espérance de la LOO-AUC est proportionnelle à la capacité de chaque test à séparer le code correct du code incorrect. Sur cette base, nous proposons ACES (AUC ConsistEncy Scoring) avec deux variantes complémentaires : 1. ACES-C fournit des poids sous forme de solution analytique (closed-form weights) qui, sous une hypothèse légère concernant la qualité moyenne des tests, approximent de manière prouvable l'oracle en espérance ; 2. ACES-O s'affranchit de cette hypothèse et optimise de manière itérative un objectif LOO-AUC différentiable. Les deux méthodes opèrent uniquement sur la matrice binaire de réussite (pass matrix) avec un surcoût (overhead) négligeable, et atteignent des performances de pointe (state-of-the-art) en termes de Pass@k sur de multiples benchmarks de génération de code.