HyperAIHyperAI

Command Palette

Search for a command to run...

ACES : Qui teste les tests ? La cohérence de l'AUC par validation croisée « Leave-One-Out » pour la Code Generation.

Hui Sun Yun-Ji Zhang Zheng Xie Ren-Biao Liu Yali Du Xin-Ye Li Ming Li

Résumé

Voici la traduction de votre texte en français, en respectant les standards de rigueur scientifique et de terminologie technologique demandés :La sélection de candidats de code générés par des LLM à l'aide de tests également générés par des LLM représente un défi majeur, car les tests eux-mêmes peuvent être incorrects. Les méthodes existantes traitent soit tous les tests de manière équivalente, soit s'appuient sur des heuristiques ad hoc pour filtrer les tests peu fiables. Or, déterminer la justesse d'un test nécessite de savoir préalablement quels codes sont corrects, ce qui crée une dépendance circulaire (circular dependency). Notre intuition fondamentale est qu'il n'est pas nécessaire de déterminer la justesse des tests : les votes des tests doivent servir à classer (rank), et non simplement à compter. Ce qui importe n'est pas le nombre de codes réussissant un test, mais la capacité de ce test à distinguer le code correct du code incorrect. Nous brisons cette dépendance circulaire via une évaluation de type « leave-one-out » : nous isolons un test, nous classons les codes en fonction de leurs scores agrégés sur tous les autres tests restants, puis nous mesurons si le schéma de réussite/échec (pass/fail pattern) du test isolé concorde avec ce classement. Nous formalisons cette concordance sous le nom d'AUC « leave-one-out » (LOO-AUC) et démontrons que l'espérance de la LOO-AUC est proportionnelle à la capacité de chaque test à séparer le code correct du code incorrect. Sur cette base, nous proposons ACES (AUC ConsistEncy Scoring) avec deux variantes complémentaires : 1. ACES-C fournit des poids sous forme de solution analytique (closed-form weights) qui, sous une hypothèse légère concernant la qualité moyenne des tests, approximent de manière prouvable l'oracle en espérance ; 2. ACES-O s'affranchit de cette hypothèse et optimise de manière itérative un objectif LOO-AUC différentiable. Les deux méthodes opèrent uniquement sur la matrice binaire de réussite (pass matrix) avec un surcoût (overhead) négligeable, et atteignent des performances de pointe (state-of-the-art) en termes de Pass@kkk sur de multiples benchmarks de génération de code.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp