Command Palette

Search for a command to run...

정책에 관하여

날짜

2년 전

동일한 전략즉, 샘플 생성 전략은 네트워크 매개변수 업데이트 전략과 동일하다는 의미입니다. 현재 전략에 따라 다음 작업 선택을 직접 수행한 다음 이 샘플을 사용하여 전략을 업데이트합니다. 샘플을 생성하는 전략은 학습하는 동안의 전략과 동일합니다.

SARSA 알고리즘

SARSA(State-Action-Reward-State-Action)는 마르코프 의사결정 과정 전략을 학습하기 위한 알고리즘으로, 머신 러닝 분야의 강화 학습에 자주 사용됩니다.

SARSA 알고리즘의 핵심 포인트

  • 상태 s'에 있을 때는 어떤 a'를 취해야 할지 알고 그 조치를 취해야 합니다.
  • 행동 a의 선택은 e-탐욕 전략을 따르고, 목표 Q 값의 계산은 e-탐욕 전략에 의해 얻어진 행동 a'에 기반하므로 정책 기반 학습입니다.

동일한 전략의 장단점

  • 장점: 각 단계를 업데이트할 수 있어 명확하고 학습 속도가 빠릅니다. 아무런 결과도 없는 상황에도 대처할 수 있으며 적용 범위가 광범위합니다.
  • 단점: 탐사와 활용 사이의 모순에 직면함 알려진 최적의 선택만을 사용하면 최적의 솔루션을 학습하는 데 도움이 되지 않을 수 있습니다. 지역 최적점으로 수렴하고, 탐색을 추가하고 학습 효율성을 감소시킵니다.

같은 전략과 다른 전략

동일한 전략과 다른 전략의 차이는 Q값을 업데이트할 때 기존 전략을 사용할지 아니면 새로운 전략을 사용할지 여부입니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
정책에 관하여 | 백과사전 | HyperAI초신경