HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Knapsack RL : Débloquer l'exploration des LLM grâce à l'optimisation de l'allocation budgétaire

Ziniu Li Congliang Chen Tianyun Yang Tian Ding Ruoyu Sun Ge Zhang Wenhao Huang Zhi-Quan Luo

Knapsack RL : Débloquer l'exploration des LLM grâce à l'optimisation de l'allocation budgétaire

Résumé

Les modèles linguistiques massifs (LLM) peuvent s'améliorer eux-mêmes grâce à l'apprentissage par renforcement, en générant des trajectoires pour explorer et découvrir des solutions meilleures. Toutefois, ce processus d'exploration est coûteux en termes de calcul, obligeant souvent les méthodes actuelles à attribuer des budgets d'exploration limités à chaque tâche. Cette répartition uniforme engendre des cas limites problématiques : les tâches faciles réussissent systématiquement, tandis que les tâches difficiles échouent systématiquement, les deux produisant des gradients nuls lors des mises à jour d'entraînement pour l'algorithme largement utilisé d'optimisation politique relative par groupe (GRPO). Nous abordons ce problème du point de vue de l'allocation du budget d'exploration. En considérant chaque tâche comme un « article » possédant une « valeur » et un « coût » distincts, nous établissons un lien avec le problème classique du sac à dos. Cette formulation nous permet de dériver une règle d’allocation optimale qui distribue de manière adaptative les ressources en fonction de l’état d’apprentissage actuel du modèle. Appliquée au GRPO, notre méthode augmente le taux effectif de gradients de politique non nuls de 20 à 40 % pendant l’entraînement. Agissant comme un « repas gratuit » en termes de calcul, notre approche permet de réallouer les budgets d’exploration des tâches où l’apprentissage est saturé vers celles où il est le plus pertinent. Cela permet d’attribuer des budgets bien plus importants (par exemple, 93 tirages) aux problèmes particulièrement difficiles, ce qui serait informatiquement prohibitive sous une allocation uniforme. Ces améliorations se traduisent par des gains significatifs sur des benchmarks de raisonnement mathématique, avec des améliorations moyennes de 2 à 4 points, et des gains maximaux de 9 points sur certaines tâches spécifiques. Notamment, atteindre une performance comparable avec une allocation homogène traditionnelle nécessiterait environ deux fois plus de ressources computationnelles.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Knapsack RL : Débloquer l'exploration des LLM grâce à l'optimisation de l'allocation budgétaire | Articles de recherche | HyperAI