
기반 모델을 활용한 오프라인 강화학습(Reinforcement Learning, RL)은 사전에 수집된 정적 데이터셋과 동역학 모델을 활용하여 보상이 높은 정책을 탐색하는 것을 목표로 한다. 정적 데이터셋을 재사용하여 학습된 동역학 모델의 일반화 능력은 적절히 활용될 경우 정책 학습에 긍정적인 영향을 미칠 수 있다. 이를 위해 일부 연구들은 예측된 동역학의 불확실성을 정량화하고, 이를 보상에 대한 패널티로 직접 적용하는 방식을 제안해왔다. 그러나 동역학과 보상은 MDP(마르코프 결정 과정)의 맥락에서 본질적으로 다른 요소이므로, 동역학의 불확실성을 보상 패널티를 통해 표현하는 것은 모델 활용과 리스크 회피 사이에 예상치 못한 트레이드오프를 초래할 수 있다. 본 연구에서는 동역학에 대한 신뢰도 분포를 유지하고, 이 신뢰도 분포로부터 편향된 샘플링을 통해 정책을 평가하거나 최적화하는 방식을 제안한다. 이 샘플링 절차는 오프라인 RL의 교대 마르코프 게임(Alternating Markov Game) 설정에 기반하여 편향된 사고 방식(편향적 낙관주의, pessimism)을 반영한다. 본 연구에서는 편향된 샘플링이 정책에 의존하는 재가중 인자로 동역학 신뢰도를 갱신하는 구조를 수학적으로 증명하며, 이를 '편향 조절 동역학 신뢰도(Pessimism-Modulated Dynamics Belief)'라 명명한다. 정책 개선을 위해, 특정 조건 하에서 단조 증가 성질을 보장하는 반복적 정규화된 정책 최적화 알고리즘을 설계하였다. 실용화를 위해, 이 해를 근사적으로 찾는 오프라인 RL 알고리즘도 제안하였다. 실험 결과, 제안하는 방법은 다양한 벤치마크 과제에서 최신 기준(SOTA, State-of-the-Art) 수준의 성능을 달성함을 확인하였다.