HyperAI초신경

배우-평론가 알고리즘

행동 비판 알고리즘 행위자-비판 알고리즘은 정책 네트워크와 가치 함수를 결합하여 결과에 대한 보상 및 처벌 정보를 통해 다양한 상태에서 다양한 행동이 취해질 확률을 계산하는 강화 학습 알고리즘입니다. AC 알고리즘이라고도 불립니다.

행동 비판 알고리즘은 두 개의 신경망을 설계하고, 매번 매개변수를 연속적인 상태로 업데이트하며, 각 매개변수가 업데이트되기 전과 후에 상관관계가 있습니다. 기존 정책 네트워크와 비교했을 때 학습 효율성과 성능이 더 뛰어나지만, 편향이 발생하기 쉽고 지역 최적 솔루션만 생성할 수 있습니다.

AC 알고리즘의 장점

  • 더 나은 융합
  • 높은 차원성과 연속적인 작업 공간이 더 잘 작동합니다.
  • 확률적 전략을 사용할 수 있습니다

AC 알고리즘의 단점

  • 일반적으로 지역 최적 솔루션이 얻어집니다.
  • 평가 전략은 비효율적이며 편향성이 높습니다.