2ヶ月前

エージェントにおける階層的なニーズの処方

Tofara Moyo
要約

競合する目的を優先的に処理し、全体的な期待報酬を向上させる階層的抽象化の学習に向けた新規手法を提案します。当手法では、複数のスカラー出力を有する二次報酬エージェントを用います。各出力は異なる抽象化レベルと関連付けられており、従来のエージェントはこれらの出力を階層的に最大化することを学びます。各レベルは前段階の最大化に基づいて条件付けられます。私たちは、これらのスカラー値と全体的な報酬を優先度順に並べる方程式を導出し、ニーズの階層構造が目標設定に情報を提供するように誘導します。Pendulum v1環境での実験結果は、ベースライン実装に比べて優れた性能を示しており、最先端の成果を得ました。(注:「state of the art」は「最先端」と訳しました)