Search for a command to run...
日付
同じ戦略これは、サンプルを生成するためのストラテジがネットワーク更新パラメータのストラテジと同じであることを意味します。現在のストラテジに基づいて次のアクションの選択を直接実行し、このサンプルを使用してストラテジを更新します。学習中の戦略。
SARSA (State-Action-Reward-State-Action) は、マルコフ決定プロセス戦略を学習するためのアルゴリズムであり、通常、機械学習分野の強化学習で使用されます。
同じ戦略と異なる戦略の違いは、Q 値を更新するときに、確立された戦略を使用するか、新しい戦略を使用するかです。
アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。