HyperAIHyperAI

Command Palette

Search for a command to run...

L’auto-jeu avec retour d’exécution : amélioration des capacités de suivi d'instructions des grands modèles linguistiques

Guanting Dong Keming Lu Chengpeng Li Tingyu Xia Bowen Yu Chang Zhou Jingren Zhou

Résumé

Une capacité fondamentale des grands modèles linguistiques (LLM) est de suivre des instructions formulées en langage naturel. Toutefois, le problème de la construction automatique de données d'entraînement de haute qualité afin d'améliorer les capacités complexes de suivi d'instructions des LLM sans annotation manuelle reste non résolu. Dans cet article, nous introduisons AutoIF, la première méthode évolutive et fiable pour générer automatiquement des données d'entraînement adaptées au suivi d'instructions. AutoIF transforme la validation de la qualité des données de suivi d'instructions en une vérification de code, en demandant aux LLM de générer des instructions, le code correspondant permettant de vérifier la correction des réponses à ces instructions, ainsi que des exemples de tests unitaires pour confirmer la correction du code. Ensuite, un échantillonnage par rejet basé sur les retours d'exécution permet de produire des données destinées à l'entraînement par Fine-Tuning supervisé (SFT) et par apprentissage par renforcement à partir de feedback humain (RLHF). AutoIF obtient des améliorations significatives sur trois algorithmes d'entraînement — SFT, DPO hors ligne et DPO en ligne — lorsqu'elle est appliquée aux principaux modèles open-source LLM, Qwen2 et LLaMA3, dans des configurations d'alignement auto-référentiel et de distillation de modèle fort vers modèle faible. Notre code est disponible publiquement à l'adresse suivante : https://github.com/QwenLM/AutoIF.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
L’auto-jeu avec retour d’exécution : amélioration des capacités de suivi d'instructions des grands modèles linguistiques | Articles | HyperAI