強化学習強化学習
強化学習これは機械学習の重要な分野であり、複数の分野のクロスプロダクトであり、その本質は意思決定の問題を解決すること、つまり自動意思決定を実現し、継続的な意思決定を行うことです。
強化学習には主にエージェント、環境状態、行動、報酬の 4 つの要素が含まれており、その目標は最大の累積報酬を獲得することです。
強化学習の分類
要素の観点から見ると、主なメソッドは次のとおりです。
- ポリシーベース: 最適なポリシーを見つけることが焦点です。
- 価値ベース: 焦点は最適な報酬額を見つけることです。
- アクションベース: 各ステップでの最適なアクションに重点が置かれます。