L’auto-jeu avec retour d’exécution : amélioration des capacités de suivi d'instructions des grands modèles linguistiques

Une capacité fondamentale des grands modèles linguistiques (LLM) est de suivre des instructions formulées en langage naturel. Toutefois, le problème de la construction automatique de données d'entraînement de haute qualité afin d'améliorer les capacités complexes de suivi d'instructions des LLM sans annotation manuelle reste non résolu. Dans cet article, nous introduisons AutoIF, la première méthode évolutive et fiable pour générer automatiquement des données d'entraînement adaptées au suivi d'instructions. AutoIF transforme la validation de la qualité des données de suivi d'instructions en une vérification de code, en demandant aux LLM de générer des instructions, le code correspondant permettant de vérifier la correction des réponses à ces instructions, ainsi que des exemples de tests unitaires pour confirmer la correction du code. Ensuite, un échantillonnage par rejet basé sur les retours d'exécution permet de produire des données destinées à l'entraînement par Fine-Tuning supervisé (SFT) et par apprentissage par renforcement à partir de feedback humain (RLHF). AutoIF obtient des améliorations significatives sur trois algorithmes d'entraînement — SFT, DPO hors ligne et DPO en ligne — lorsqu'elle est appliquée aux principaux modèles open-source LLM, Qwen2 et LLaMA3, dans des configurations d'alignement auto-référentiel et de distillation de modèle fort vers modèle faible. Notre code est disponible publiquement à l'adresse suivante : https://github.com/QwenLM/AutoIF.