
본 논문에서는 강화학습 에이전트가 받는 랜덤 리턴의 분포, 즉 가치 분포의 근본적인 중요성을 주장합니다. 이는 일반적으로 이 리턴의 기대값 또는 가치를 모델링하는 강화학습 접근법과 대조됩니다. 가치 분포에 대한 연구 문헌은 이미 존재하지만, 지금까지는 위험 인식 행동 등의 특정 목적을 위해 사용되어 왔습니다. 우리는 정책 평가와 제어 설정에서의 이론적 결과로 시작하여, 후자에서 중요한 분포 불안정성을暴露出来(노출시킵니다). 그런 다음 분포 관점을 이용하여 벨만 방정식을 근사적인 가치 분포 학습에 적용하는 새로운 알고리즘을 설계합니다. 우리는 아케이드 학습 환경(Arcade Learning Environment)의 게임 세트를 사용하여 우리의 알고리즘을 평가합니다. 우리는 최신 결과와 함께 가치 분포가 근사적인 강화학습에서 얼마나 중요한지를 보여주는 사례 증거를 얻었습니다. 마지막으로, 우리는 이론적 및 경험적 증거를 결합하여 근사 설정에서 가치 분포가 학습에 미치는 영향을 강조합니다.注:在翻译“exposing a significant distributional instability in the latter”时,我选择了“후자에서 중요한 분포 불안정성을 노출시킵니다”,其中“노출시키다”是“expose”的韩语对应词,但为了使句子更加流畅和自然,也可以选择其他表达方式,如“후자에서 중요한 분포 불안정성을 밝힙니다”。这里提供了一个更为自然的版本:我们在正文中使用了“노출시키다”,但在实际应用中,“밝히다”可能更符合韩语的表达习惯。因此,以下是优化后的句子:- “우리는 정책 평가와 제어 설정에서의 이론적 결과로 시작하여, 후자에서 중요한 분포 불안정성을 밝힙니다.”最终版本如下:본 논문에서는 강화학습 에이전트가 받는 랜덤 리턴의 분포, 즉 가치 분포의 근본적인 중요성을 주장합니다. 이는 일반적으로 이 리턴의 기대값 또는 가치를 모델링하는 강화학습 접근법과 대조됩니다. 가치 분포에 대한 연구 문헌은 이미 존재하지만, 지금까지는 위험 인식 행동 등의 특정 목적을 위해 사용되어 왔습니다. 우리는 정책 평가와 제어 설정에서의 이론적 결과로 시작하여, 후자에서 중요한 분포 불안정성을 밝힙니다. 그런 다음 분포 관점을 이용하여 벨만 방정식을 근사적인 가치 분포 학습에 적용하는 새로운 알고리즘을 설계합니다. 우리는 아케이드 학습 환경(Arcade Learning Environment)의 게임 세트를 사용하여 우리의 알고리즘을 평가합니다. 우리는 최신 결과와 함께 가치 분포가 근사적인 강화학습에서 얼마나 중요한지를 보여주는 사례 증거를 얻었습니다. 마지막으로, 우리는 이론적 및 경험적 증거를 결합하여 근사 설정에서 가치 분포가 학습에 미치는 영향을 강조합니다.