Command Palette
Search for a command to run...

要約
報酬モデル(Reward Models: RMs)は強化学習(Reinforcement Learning: RL)を用いて生成モデルの性能を向上させる上で不可欠であるが、視覚生成におけるRMのスケーラビリティ戦略については依然としてほとんど研究が進んでいない。その主な理由は、従来のアプローチに内在する根本的な制約に起因する。CLIPに基づくRMはアーキテクチャ的制約および入力モダリティの制限を抱えており、一方で広く用いられているBradley-Terry損失関数は、視覚言語モデル(Vision-Language Models: VLMs)の次トークン予測メカニズムと本質的に不整合であるため、効果的なスケーリングを阻害している。さらに深刻な問題として、RLHF(Reinforcement Learning from Human Feedback)の最適化プロセスは「報酬ハッキング(Reward Hacking)」という課題に直面しており、モデルが報酬信号の欠陥を悪用するだけで、実際の品質向上を伴わない状況が生じる。こうした課題に対処するため、本研究では、新たな生成型報酬モデリング枠組み「RewardDance」を提案する。RewardDanceは、報酬スコアを「生成画像が特定の基準に基づいて参照画像を上回っている」という判断を示す「yes」トークンをモデルが予測する確率として再定式化することで、報酬目標とVLMアーキテクチャを本質的に整合させる。この整合性により、2つの次元でのスケーリングが可能となる:(1)モデルスケーリング:260億パラメータにまで系統的に拡大されたRMの構築;(2)コンテキストスケーリング:タスク固有の指示、参照例、および思考過程(Chain-of-Thought: CoT)推論の統合。広範な実験により、RewardDanceがテキストから画像生成、テキストから動画生成、画像から動画生成という各タスクにおいて、既存の最先端手法を大きく上回ることを示した。特に重要な点として、長年解決困難とされてきた「報酬ハッキング」問題を克服した。大規模なRMはRL微調整過程において高い報酬分散を示し、かつその状態を維持するという特性を明らかにした。これは、報酬信号の悪用に対する耐性と、多様で高品質な出力を継続的に生成する能力を裏付けるものであり、小規模モデルに見られる「モード崩壊(mode collapse)」問題の緩和に大きく寄与している。