HyperAIHyperAI

Command Palette

Search for a command to run...

RewardMap, Un Cadre d'apprentissage Par Renforcement Multi-étapes

Date

il y a 2 mois

Organization

Université nationale de Singapour
Université du Zhejiang

Paper URL

2510.02240

RewardMap a été proposé conjointement par des équipes de recherche de l'Université de Westlake, de l'Université de Tongji et d'autres universités en octobre 2025. Les résultats de recherche pertinents ont été publiés dans l'article "...".RewardMap : Gérer la rareté des récompenses dans le raisonnement visuel fin grâce à l’apprentissage par renforcement multi-étapes".

RewardMap est un cadre d'apprentissage par renforcement (RL) multi-étapes conçu pour améliorer la compréhension visuelle et les capacités de raisonnement des grands modèles de langage multimodaux (MLLM). Ce cadre intègre deux caractéristiques clés : premièrement, il introduit un système de récompenses prenant en compte la difficulté et incluant des récompenses détaillées, ce qui résout directement le problème de la rareté des récompenses tout en fournissant une supervision plus riche. Deuxièmement, les chercheurs proposent un schéma d'apprentissage par renforcement multi-étapes qui passe progressivement de tâches perceptives simples à des tâches de raisonnement complexes, offrant ainsi une stratégie de démarrage à froid plus efficace que le réglage fin supervisé (SFT) traditionnel.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp