Command Palette
Search for a command to run...
RewardMap, Un Cadre d'apprentissage Par Renforcement Multi-étapes
RewardMap a été proposé conjointement par des équipes de recherche de l'Université de Westlake, de l'Université de Tongji et d'autres universités en octobre 2025. Les résultats de recherche pertinents ont été publiés dans l'article "...".RewardMap : Gérer la rareté des récompenses dans le raisonnement visuel fin grâce à l’apprentissage par renforcement multi-étapes".
RewardMap est un cadre d'apprentissage par renforcement (RL) multi-étapes conçu pour améliorer la compréhension visuelle et les capacités de raisonnement des grands modèles de langage multimodaux (MLLM). Ce cadre intègre deux caractéristiques clés : premièrement, il introduit un système de récompenses prenant en compte la difficulté et incluant des récompenses détaillées, ce qui résout directement le problème de la rareté des récompenses tout en fournissant une supervision plus riche. Deuxièmement, les chercheurs proposent un schéma d'apprentissage par renforcement multi-étapes qui passe progressivement de tâches perceptives simples à des tâches de raisonnement complexes, offrant ainsi une stratégie de démarrage à froid plus efficace que le réglage fin supervisé (SFT) traditionnel.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.