강화 학습
강화 학습이는 머신 러닝의 중요한 분야이며 학제 간 산물입니다. 그 본질은 의사결정 문제를 해결하는 것, 즉 자동 의사결정과 지속적인 의사결정을 달성하는 것입니다.
강화 학습은 주로 에이전트, 환경 상태, 행동, 보상이라는 네 가지 요소로 구성됩니다. 가장 많은 누적 보상을 얻는 것이 목표입니다.
강화 학습 분류
요소의 관점에서 보면 주로 다음과 같은 방법이 있습니다.
- 정책 기반: 최적의 정책을 찾는 데 중점을 둡니다.
- 가치 기반: 보상의 최적 합계를 찾는 데 중점을 둡니다.
- 행동 기반: 각 단계에서 최적의 행동에 초점을 맞춥니다.