Les Discriminateurs de Politiques Pré-Entraînés sont des Modèles de Récompense Généraux

Nous proposons une nouvelle perspective sur la modélisation des récompenses en la formulant comme un discriminateur de politiques, qui quantifie la différence entre deux politiques pour générer un signal de récompense, guidant ainsi la politique d'entraînement vers une politique cible dotée de comportements souhaités. À partir de cette intuition conceptuelle, nous introduisons une méthode d'entraînement préalable évolutive nommée Apprentissage Discriminatif de Politique (POLAR), qui entraîne un modèle de récompense (RM) à distinguer les politiques identiques et à discriminer les différentes politiques. Contrairement aux méthodes traditionnelles de modélisation des récompenses basées sur des préférences absolues, POLAR capture la différence relative entre une politique et une politique cible arbitraire, ce qui constitue un objectif d'optimisation évolutif et de haut niveau adapté à la modélisation de relations de classement génériques.En s'appuyant sur le paradigme d'entraînement préalable POLAR, nous présentons une série de modèles de récompense (RMs) avec des échelles paramétriques allant de 1,8 milliard à 7 milliards. Les résultats empiriques montrent que POLAR dépasse considérablement les méthodes non pré-entraînées traditionnelles, améliorant considérablement les performances du RM. Par exemple, POLAR-7B peut augmenter la précision des préférences de 54,8% à 81,0% pour les tâches STEM et de 57,9% à 85,5% pour les tâches d'écriture créative par rapport aux baselines SOTA. POLAR montre également des capacités généralisantes robustes dans le cadre du renforcement par affinage humain (RLHF) en utilisant l'affinage par renforcement (RFT), fournissant des signaux de récompense fiables et améliorant notablement les performances des politiques—passant LLaMa3.1-8B d'une moyenne de 47,36% à 56,33% et Qwen2.5-32B de 64,49% à 70,47% sur 20 benchmarks.De plus, les expériences d'échelle révèlent une relation claire suivant une loi puissance entre le calcul et les performances, soutenue par des coefficients de corrélation linéaires approchant 0,99. Les performances impressionnantes, la forte généralisation et les propriétés d'échelle suggèrent que POLAR est une direction prometteuse pour le développement de modèles de récompense généraux et performants.