깊은 베이지안 밴드아이 쇼다운: 톰슨 샘플링을 위한 베이지안 딥 네트워크의 실증적 비교

최근 딥 강화학습(deep reinforcement learning) 분야의 발전은 Go와 Atari 게임 등의 응용 프로그램에서 성능 향상에 큰 진전을 이루었습니다. 그러나 복잡한 영역에서 탐사(exploration)와 활용(exploitation) 사이의 균형을 잡는 실용적인 방법 개발은 아직 해결되지 않은 문제입니다.汤普森采样(Thompson Sampling)及其在强化学习中的扩展提供了一种优雅的探索方法,该方法仅需要访问模型的后验样本。同时,近似贝叶斯方法的进步使得灵活的神经网络模型的后验近似成为可能。因此,在汤普森采样的框架中考虑近似贝叶斯神经网络变得非常有吸引力。위 문장에서 "湯普森采样(Thompson Sampling)"과 "近似贝叶斯方法(approximate Bayesian methods)" 같은 용어가 중국어로 작성되어 있습니다. 이들을 한국어로 올바르게 번역하겠습니다.톰슨 샘플링(Thompson Sampling)과 그 강화학습 확장은 모델의 사후 샘플에만 접근할 필요가 있는 우아한 탐사 방법을 제공합니다. 한편, 근사 베이지안 방법(approximate Bayesian methods)의 발전으로 유연한 신경망 모델의 사후 근사를 실용적으로 만들 수 있게 되었습니다. 따라서, 톰슨 샘플링 프레임워크에서 근사 베이지안 신경망을 고려하는 것이 매력적입니다.톰슨 샘플링에서 근사 사후 사용의 영향을 이해하기 위해, 우리는 다양한 상황적 밴디트(contextual bandit) 문제를 통해 잘 알려진 기존 방법들과 최근 개발된 근사 사후 샘플링 방법들을 톰슨 샘플링과 결합하여 벤치마킹했습니다. 우리는 감독 학습 설정에서 성공적이었던 많은 접근법들이 순차적 의사결정 시나리오에서는 성능이 떨어짐을 발견했습니다. 특히, 천천히 수렴하는 불확실성 추정치를 온라인 환경에 적응시키는 과정의 어려움을 강조하고자 합니다.