17일 전

DisCor: 강화학습에서 분포 보정을 통한 정정 피드백

Aviral Kumar, Abhishek Gupta, Sergey Levine
DisCor: 강화학습에서 분포 보정을 통한 정정 피드백
초록

딥 강화학습은 다양한 작업에 대해 효과적인 정책을 학습할 수 있지만, 안정성 문제와 하이퍼파라미터에 대한 민감성으로 인해 사용이 매우 어렵다는 점이 유명하다. 이러한 문제의 원인은 여전히 명확하지 않다. 표준 지도학습 방법(예: 밴딧 문제에서의 적용)을 사용할 경우, 온폴리시 데이터 수집은 정책이 가능성이 높은 상태와 행동에서 모델을 정확히 보정하는 '하드 음성(hard negatives)'을 제공한다. 우리는 이를 '보정 피드백(corrective feedback)'이라고 부른다. 본 연구에서는 부트스트랩 기반의 Q-학습 알고리즘이 반드시 이러한 보정 피드백의 이점을 얻는 것은 아니며, 알고리즘이 수집한 경험 데이터를 기반으로 학습하는 것만으로는 Q함수의 오류를 충분히 보정할 수 없다는 점을 보여준다. 실제로 Q-학습 및 관련 방법은 에이전트가 수집한 경험의 분포와 그 경험을 기반으로 학습하여 유도된 정책 사이에 병리적인 상호작용을 보일 수 있으며, 이는 노이즈가 많거나 희박하거나 지연된 보상 환경에서 불안정성, 최적해에 도달하지 못한 수렴, 그리고 낮은 성능을 초래할 수 있다. 우리는 이 문제의 존재를 이론적으로도, 실험적으로도 입증한다. 이후 우리는 특정한 데이터 분포 보정이 이 문제를 완화할 수 있음을 보여준다. 이러한 관찰을 바탕으로, 최적의 분포에 대한 근사치를 계산하고, 이를 사용해 학습에 사용되는 전이(transitions)를 재가중하는 새로운 알고리즘인 DisCor을 제안한다. 이 알고리즘은 다중 작업 학습이나 노이즈 있는 보상 신호로부터의 학습과 같은 다양한 도전적인 강화학습 환경에서 상당한 성능 향상을 가져온다. 본 연구의 요약을 담은 블로그 포스트는 다음 링크에서 확인할 수 있다: https://bair.berkeley.edu/blog/2020/03/16/discor/.

DisCor: 강화학습에서 분포 보정을 통한 정정 피드백 | 최신 연구 논문 | HyperAI초신경