8ヶ月前

エージェント

モデリング

アプローチ／フレームワーク

Tofara Moyo

概要

競合する目的を優先的に処理し、全体的な期待報酬を向上させる階層的抽象化の学習に向けた新規手法を提案します。当手法では、複数のスカラー出力を有する二次報酬エージェントを用います。各出力は異なる抽象化レベルと関連付けられており、従来のエージェントはこれらの出力を階層的に最大化することを学びます。各レベルは前段階の最大化に基づいて条件付けられます。私たちは、これらのスカラー値と全体的な報酬を優先度順に並べる方程式を導出し、ニーズの階層構造が目標設定に情報を提供するように誘導します。Pendulum v1環境での実験結果は、ベースライン実装に比べて優れた性能を示しており、最先端の成果を得ました。（注：「state of the art」は「最先端」と訳しました）

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

エージェント

モデリング

アプローチ／フレームワーク

Tofara Moyo

概要

競合する目的を優先的に処理し、全体的な期待報酬を向上させる階層的抽象化の学習に向けた新規手法を提案します。当手法では、複数のスカラー出力を有する二次報酬エージェントを用います。各出力は異なる抽象化レベルと関連付けられており、従来のエージェントはこれらの出力を階層的に最大化することを学びます。各レベルは前段階の最大化に基づいて条件付けられます。私たちは、これらのスカラー値と全体的な報酬を優先度順に並べる方程式を導出し、ニーズの階層構造が目標設定に情報を提供するように誘導します。Pendulum v1環境での実験結果は、ベースライン実装に比べて優れた性能を示しており、最先端の成果を得ました。（注：「state of the art」は「最先端」と訳しました）

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています