Command Palette
Search for a command to run...
RewardMap、多段階強化学習フレームワーク
RewardMapは、2025年10月に西湖大学、同済大学などの大学の研究チームによって共同で提案されました。関連する研究成果は論文「...」に掲載されました。RewardMap: 多段階強化学習による細粒度視覚推論におけるスパース報酬への取り組み”。
RewardMapは、マルチモーダル大規模言語モデル(MLLM)の視覚的理解と推論能力を強化するために設計された多段階強化学習(RL)フレームワークです。このフレームワークには、2つの重要な設計上の特徴が組み込まれています。まず、詳細な報酬を含む難易度を考慮した報酬設計を導入することで、スパース報酬問題に直接対処しながら、より豊富な教師情報を提供します。次に、研究者らは、単純な知覚タスクから複雑な推論タスクへと段階的に移行していく多段階強化学習スキームを提案し、従来の教師ありファインチューニング(SFT)よりも効果的なコールドスタート戦略を提供します。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.