HyperAI초신경

정책 해제

다양한 전략즉, 새로운 샘플을 생성하는 전략은 네트워크가 매개변수를 업데이트할 때 사용하는 전략과 다르다는 의미입니다. 대표적인 예가 Q-학습 알고리즘이다.

다른 전략적 사고

전략이 다르다는 것은 학습된 전략이 샘플링된 전략과 다르다는 것을 의미합니다. 먼저 특정 확률 분포 하에서 대량의 행동 데이터를 생성한 다음, 이 데이터에서 최적의 전략에서 벗어난 목표 전략을 찾습니다.

이 계획을 채택하려면 다음 조건이 충족되어야 합니다. π가 목표 전략이고 μ가 행동 전략이라고 가정할 때, μ에서 π로 학습하기 위한 조건은 π(a|s) > 0일 때 µ(a|s) > 0이 유지되어야 한다는 것입니다.

Q-학습 알고리즘

Q-Learning 알고리즘은 인지된 보상과 처벌에 따라 다음 행동을 선택하는 방법을 학습합니다. 여기서 Q는 정책 π의 품질 함수를 나타내며, 각 상태-행동 쌍(s, a)을 상태 s를 관찰하고 행동 a를 결정한 후 예상되는 총 미래 보상에 매핑합니다.

Q-Learning 알고리즘은 모델 프리(Model-Free) 방식입니다. 즉, MDP의 동적 지식을 모델링하지 않고 각 상태에서 다양한 행동의 Q 값을 직접 추정한 다음 각 상태에서 가장 높은 Q 값을 가진 행동과 해당 전략을 선택합니다.

컴퓨터가 모든 상태 동작에 지속적으로 접근하면 Q-학습 알고리즘은 최적의 Q 함수로 수렴합니다.

다양한 전략적 이점

  • 인간이 제공한 교육 샘플이나 다른 에이전트가 제공한 가이드 샘플을 기반으로 학습할 수 있습니다.
  • 기존 전략에서 얻은 경험을 활용할 수 있습니다.
  • 탐색적 정책을 사용하는 동안 결정론적 정책을 학습하는 것이 가능합니다.
  • 하나의 전략을 사용하여 여러 전략을 동시에 샘플링하고 배울 수 있습니다.
관련 용어: 동일 전략, 전략 기능