11 天前

基于可解释与概率模型的安全强化学习分层框架

Ammar N. Abbas, Georgios C. Chasparis, John D. Kelleher
基于可解释与概率模型的安全强化学习分层框架
摘要

复杂系统物理模型识别的困难,促使研究者探索不依赖于复杂系统建模的方法。深度强化学习(Deep Reinforcement Learning, DRL)作为该领域的先驱,通过仅与系统交互即可解决此类问题,而无需依赖系统的物理模型。然而,其采用黑箱学习机制,缺乏对模型所采取动作的可解释性,难以在现实世界中对安全性要求极高的系统中直接应用。此外,深度强化学习领域仍存在一个开放性研究问题:如何在稀疏决策空间中聚焦关键决策的策略学习。本文提出了一种面向安全关键系统的新方法——基于行为克隆的协同强化学习架构(Behavior Cloning-based Synchronized Reinforcement Learning Architecture, BC-SRLA)。该方法融合了概率建模与强化学习的优势,同时具备良好的可解释性,并能与传统决策策略协同工作、同步运行。BC-SRLA在由概率模型与强化学习融合信息自主识别出的特定情境下被激活,例如异常工况或系统接近失效状态时。此外,该方法采用策略克隆(Policy Cloning)技术初始化基线策略,从而最大限度减少与环境的交互次数,有效应对在安全关键行业中应用强化学习所面临的挑战。通过在涡扇发动机维护场景中的案例研究,验证了BC-SRLA的有效性,结果表明其性能优于现有技术及其他基线方法。

基于可解释与概率模型的安全强化学习分层框架 | 最新论文 | HyperAI超神经