Command Palette
Search for a command to run...
BaseReward : une ligne de base solide pour le modèle de récompense multimodal

Résumé
L'avancée rapide des Modèles de Langage à Grandes Échelles Multimodaux (MLLM) a rendu l'alignement de ces modèles sur les préférences humaines un défi crucial. Les Modèles de Récompense (Reward Models, RMs) constituent une technologie fondamentale pour atteindre cet objectif, mais un guide systématique pour concevoir des Modèles de Récompense Multimodaux (MRMs) de pointe fait actuellement défaut, tant dans le milieu académique que dans l'industrie. À travers une analyse expérimentale exhaustive, ce papier vise à proposer une « recette » claire pour la construction de MRMs à haute performance. Nous étudions de manière systématique chaque composant essentiel du pipeline de développement des MRMs, incluant les paradigmes de modélisation de récompense (tels que Naive-RM, Critic-based RM et Generative RM), l'architecture de la tête de récompense, les stratégies d'entraînement, la curation des données (couvrant plus de dix jeux de données de préférences multimodaux et textuels uniquement), le modèle de base (backbone) et son échelle, ainsi que les méthodes d'ensemblage.Sur la base de ces observations expérimentales, nous introduisons BaseReward, une base puissante et efficace pour la modélisation de récompenses multimodales. BaseReward repose sur une architecture simple mais efficace, fondée sur un modèle de base {Qwen2.5-VL}, dotée d'une tête de récompense à deux couches optimisée, et entraînée sur un mélange soigneusement sélectionné de données de préférences multimodales et textuelles de haute qualité. Nos résultats montrent que BaseReward établit un nouveau record sur des benchmarks majeurs tels que MM-RLHF-Reward Bench, VL-Reward Bench et Multimodal Reward Bench, surpassant les modèles précédents. En outre, afin de valider son utilité pratique au-delà des benchmarks statiques, nous avons intégré BaseReward dans un pipeline réel de apprentissage par renforcement, avec succès améliorant les performances d'un MLLM sur diverses tâches de perception, de raisonnement et de conversation. Ce travail ne se contente pas de proposer un MRM de premier plan, mais, plus important encore, fournit à la communauté un guide clair et fondé sur des données empiriques pour le développement de modèles de récompense robustes destinés à la prochaine génération de MLLMs.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.