해당 프레임워크는 해석 가능하고 확률적인 모델 기반 안전 강화 학습을 위한 계층적 접근을 제안합니다.

복잡한 시스템의 물리적 모델을 식별하는 어려움으로 인해, 이러한 복잡한 모델링에 의존하지 않는 방법 탐색이 이루어지고 있다. 딥 강화학습(Deep Reinforcement Learning)은 복잡한 시스템과의 상호작용을 통해 물리적 모델에 의존하지 않고 문제를 해결할 수 있는 선구적인 접근법으로 주목받고 있다. 그러나 이 방법은 흑상자(black-box) 학습 방식을 사용하기 때문에, 모델이 도출한 행동에 대한 설명 없이 실제 산업 현장이나 안전 핵심 시스템에 적용하기 어렵다는 한계가 있다. 더불어 딥 강화학습 분야에서 여전히 미해결된 주요 연구 과제 중 하나는, 희소 도메인 내에서 중요한 결정에 대한 정책 학습을 어떻게 집중시킬 수 있는가이다. 본 논문은 안전 핵심 시스템에서 딥 강화학습을 활용하기 위한 새로운 접근법을 제안한다. 이 방법은 확률적 모델링과 강화학습의 장점을 결합하면서도, 해석 가능성(interpretability)을 추가로 제공하며, 기존의 결정 전략과 협업 및 동기화된 방식으로 작동한다. BC-SRLA(Baseline Cloning-based Safety-critical Reinforcement Learning Agent)는 확률적 모델과 강화학습의 융합 정보를 통해 자동으로 식별되는 특정 상황—예를 들어 비정상 상태 또는 시스템의 고장 직전 상태—에서 활성화된다. 또한, 정책 클로닝(policy cloning)을 통해 기준 정책(baseline policy)으로 초기화되어 환경과의 상호작용을 최소화함으로써, 안전 핵심 산업에서 강화학습을 적용할 때 발생하는 여러 도전 과제를 해결한다. 제안된 BC-SRLA의 효과성은 터보팬 엔진 유지보수에 적용한 사례 연구를 통해 입증되었으며, 기존 기법 및 기타 기준 대비 뛰어난 성능을 보였다.