「因果ベルマン方程式で最適な報酬関数を自動生成、学習効率向上へ」
因果ベルマン方程式を活用した効率的な強化学習 近日、コロンビア大学の李明軒博士と彼のチームが新たな「因果ベルマン方程式」を提案しました。これは、混在変数を含む観測データから最適価値関数の理論上の上限值を計算できるため、特定のオンライン学習アルゴリズムで最適なエージェントをより早く訓練することが可能となります。この方法により、高次元のリアルワールド問題への応用も期待されています。 従来、強化学習ではタスクの進行状況を具体的に評価するのが難しかったため、多くの追加の監督信号が必要でした。例えば、マジックキューブを解くロボット手の訓練では、タスク完了の唯一の評価基準が所定時間内に解けるかどうかであり、それ以外の詳細なステップ評価が存在しなかったため、単純に成功或いは失敗で報酬を与えただけでは効率的な学習が困難でした。Open AIでも、機械手の各指の動きや現在のマジックキューブの状態が正解に近いかどうかを評価するための追加の報酬信号を設計していました。 PBRS(ポテンシャルベースの報酬シェーピング)は1999年に Wu En Da が提出した手法で、追加の報酬信号が最適戦略を損なわない限り、エージェントの学習を助けることができます。しかし、新しいタスクに取り組むたびにこれらの報酬信号を手動で設計および調整することは、コストと時間を大幅に必要とし、持続可能性に欠けていました。 李博士とチームは、既存のデータセットから自動的に合理的な報酬信号を生成できるかを探求しました。特に、モンテカルロ法を使って価値関数を推定し、二つの状態間の価値差を報酬信号として利用する方法を考案しました。ただし、データセットが高性能のエージェントによって生成されていない場合や、未観測の混在バイアスが存在する場合、この直接推定方法は偏りを持つ可能性があります。 そこで、論文中では因果推論の手法を用いて、混在バイアスを含む複数のデータセットから合理的な報酬関数を自動生成する方法が提案され、特定のエージェント訓練アルゴリズムの効率向上が理論的に証明されました。実験結果も、大幅な性能向上を示しています。 李博士は、このアイデアが思い浮かんだ際の経緯を述べています。当初、他の論文がPBRSの追加報酬信号がサンプル複雑度に大きな影響を与えないことを示していたため、懐疑的でした。しかし、最新のオンライン探索アルゴリズムの複雑度解析論文の証明部分を再度精査した際、異なる論文のの中間結論が連携して自身の目標を達成できると考えました。その直感は正しく、整然とした結論を得ることができ、「コードを書いている合間に、最後のピースを見つけたような喜びを感じました」と振り返っています。 この研究成果は、『混在オフラインデータから自動的に報酬整形を行う』(Automatic Reward Shaping from Confounded Offline Data)というタイトルで、2025年の国際機械学習会議(ICML)に採択されました。研究チームは現在、この理論をアタリゲームや連続的な状態・アクション空間を必要とするロボット制御問題などのより大規模な問題への適用を探索しています。