Command Palette
Search for a command to run...
정책에 관하여
날짜
Search for a command to run...
날짜
동일한 전략즉, 샘플 생성 전략은 네트워크 매개변수 업데이트 전략과 동일하다는 의미입니다. 현재 전략에 따라 다음 작업 선택을 직접 수행한 다음 이 샘플을 사용하여 전략을 업데이트합니다. 샘플을 생성하는 전략은 학습하는 동안의 전략과 동일합니다.
SARSA(State-Action-Reward-State-Action)는 마르코프 의사결정 과정 전략을 학습하기 위한 알고리즘으로, 머신 러닝 분야의 강화 학습에 자주 사용됩니다.
동일한 전략과 다른 전략의 차이는 Q값을 업데이트할 때 기존 전략을 사용할지 아니면 새로운 전략을 사용할지 여부입니다.
Search for a command to run...
날짜
동일한 전략즉, 샘플 생성 전략은 네트워크 매개변수 업데이트 전략과 동일하다는 의미입니다. 현재 전략에 따라 다음 작업 선택을 직접 수행한 다음 이 샘플을 사용하여 전략을 업데이트합니다. 샘플을 생성하는 전략은 학습하는 동안의 전략과 동일합니다.
SARSA(State-Action-Reward-State-Action)는 마르코프 의사결정 과정 전략을 학습하기 위한 알고리즘으로, 머신 러닝 분야의 강화 학습에 자주 사용됩니다.
동일한 전략과 다른 전략의 차이는 Q값을 업데이트할 때 기존 전략을 사용할지 아니면 새로운 전략을 사용할지 여부입니다.