HyperAI
Command Palette
Search for a command to run...
배우-평론가 알고리즘
날짜
8년 전
Search for a command to run...
날짜
액터-크리틱 알고리즘(AC)은 정책 네트워크와 가치 함수를 결합하여 보상 및 처벌 정보를 기반으로 다양한 상태에서 다양한 행동을 취할 확률을 계산하는 강화 학습 알고리즘입니다.
행동 비판 알고리즘은 두 개의 신경망을 설계하고, 매번 매개변수를 연속적인 상태로 업데이트하며, 각 매개변수가 업데이트되기 전과 후에 상관관계가 있습니다. 기존 정책 네트워크와 비교했을 때 학습 효율성과 성능이 더 뛰어나지만, 편향이 발생하기 쉽고 지역 최적 솔루션만 생성할 수 있습니다.
Search for a command to run...
날짜
액터-크리틱 알고리즘(AC)은 정책 네트워크와 가치 함수를 결합하여 보상 및 처벌 정보를 기반으로 다양한 상태에서 다양한 행동을 취할 확률을 계산하는 강화 학습 알고리즘입니다.
행동 비판 알고리즘은 두 개의 신경망을 설계하고, 매번 매개변수를 연속적인 상태로 업데이트하며, 각 매개변수가 업데이트되기 전과 후에 상관관계가 있습니다. 기존 정책 네트워크와 비교했을 때 학습 효율성과 성능이 더 뛰어나지만, 편향이 발생하기 쉽고 지역 최적 솔루션만 생성할 수 있습니다.