HyperAIHyperAI
منذ 16 أيام

إطار هرمي للتعلم القوي الآمن القائم على النماذج القابل للتفسير والاحتمالي

Ammar N. Abbas, Georgios C. Chasparis, John D. Kelleher
إطار هرمي للتعلم القوي الآمن القائم على النماذج القابل للتفسير والاحتمالي
الملخص

أدى التحدي المرتبط بتحديد النموذج الفيزيائي للأنظمة المعقدة إلى استكشاف أساليب لا تعتمد على نمذجة هذه الأنظمة بشكل معقد. وقد تمثلت التعلم العميق المعزز (Deep Reinforcement Learning) كرائد في حل هذه المشكلة دون الحاجة إلى الاعتماد على النموذج الفيزيائي للأنظمة المعقدة، من خلال التفاعل فقط مع النظام. ومع ذلك، يعتمد هذا الأسلوب على نموذج "صندوق أسود" (black-box)، مما يجعل من الصعب تطبيقه في الأنظمة الواقعية والحرجة من حيث السلامة، دون تقديم تفسيرات للإجراءات التي يُستنتجها النموذج. علاوةً على ذلك، يظل هناك سؤال بحثي مفتوح في التعلم العميق المعزز حول كيفية توجيه تعلم السياسة في اتخاذ القرارات الحاسمة ضمن مجالات نادرة (sparse domains). تقدم هذه الورقة منهجًا جديدًا لاستخدام التعلم العميق المعزز في الأنظمة الحرجة من حيث السلامة. حيث يجمع بين مزايا النمذجة الاحتمالية والتعلم المعزز، مع إضافة مزايا قابلية التفسير، ويعمل بشكل تعاوني ومتماسك مع استراتيجيات اتخاذ القرار التقليدية. يتم تفعيل BC-SRLA في حالات محددة يتم تحديدها تلقائيًا من خلال المعلومات المدمجة من النموذج الاحتمالي والتعلم المعزز، مثل الظروف غير الطبيعية أو عند اقتراب النظام من الفشل. كما يتم تهيئته بسياسة أساسية باستخدام تقنية تكرار السياسة (policy cloning)، مما يسمح بأقل تفاعل ممكن مع البيئة، ويُعالج بذلك التحديات المرتبطة باستخدام التعلم المعزز في الصناعات الحرجة من حيث السلامة. وقد أُثبتت فعالية BC-SRLA من خلال دراسة حالة في مجال الصيانة، تم تطبيقها على محركات التوربينات النفاثة، حيث أظهرت أداءً متفوقًا مقارنةً بالأساليب السابقة والأساليب المعيارية الأخرى.

إطار هرمي للتعلم القوي الآمن القائم على النماذج القابل للتفسير والاحتمالي | أحدث الأوراق البحثية | HyperAI