報酬の指定の誤り

報酬の誤指定とは、報酬関数がエージェントの真の目標を完全に満たしていないことによって引き起こされる強化学習 (RL) の問題を指します。すべての期待を完全に満たす報酬関数を設計することは多くの場合非常に難しいため、この現象は実際のアプリケーションではよく見られます。報酬エラーの削減により、エージェントの学習された動作が望ましい目標と一致しない可能性があります。この現象は、エージェントが報酬関数の脆弱性を悪用してより高い報酬スコアを取得する場合に、実際の動作が目標と一致しない可能性があります。意図された目標。

2022年にアレクサンダー・パン、クシュ・バティア、ジェイコブ・スタインハートらによって論文が発表された」報酬の誤った指定の影響: 不整合なモデルのマッピングと軽減」 報酬の誤った指定の影響についての詳細な調査。彼らは、報酬が誤って指定された 4 つの強化学習環境を構築し、エージェントの能力 (モデル能力、アクション空間の解像度、観測空間のノイズ、トレーニング時間など) が報酬のハッキング動作にどのような影響を与えるかを研究しました。彼らは、より有能なエージェントほど報酬エラーの削減を活用する可能性が高く、その結果、代理報酬が高く、実際の報酬が低くなることを発見しました。さらに、エージェントが一定の能力閾値に達すると行動が質的に変化し、実質的な報酬が激減する「相変化」現象も発見した。この課題に対処するために、彼らは異常を検出するための異常検出タスクを提案し、いくつかのベースライン検出器を提供しました。