Command Palette
Search for a command to run...
ديدي: الكشف السريع والقابل للتوسع عن الديناميكيات غير الموزعة
ديدي: الكشف السريع والقابل للتوسع عن الديناميكيات غير الموزعة
Tala Aljaafari Varun Kanade Philip Torr Christian Schroeder de Witt
الملخص
يُعدّ تطبيق التعلم بالتعزيز (RL) في البيئات الحساسة للسلامة مُقيّدًا بسبب ضعف الأداء عند حدوث انزياح في التوزيع. ندرس كشف القيم الخارجة عن التوزيع (OOD) في السلاسل الزمنية الخاصة بـ RL، ونقدّم DEEDEE، وهو كاشف يعتمد على إحصائيتين، يعيد النظر في النماذج المعتمدة على التمثيل المعقدة من خلال بديل بسيط للغاية. يستخدم DEEDEE فقط متوسطًا على مستوى الجلسة (episodewise) وتشابهًا باستخدام نواة RBF مع ملخص البيانات التدريبية، مما يُمكّن من التقاط الانحرافات العالمية والمحليّة المكملة. وعلى الرغم من بساطته، يُظهر DEEDEE أداءً يوازي أو يتفوق على الكواشف الحديثة في مجموعات اختبار OOD القياسية الخاصة بـ RL، مع تحقيق خفض بنسبة 600 مرة في حجم الحوسبة (عدد العمليات الحسابية FLOPs / الوقت الفعلي)، بالإضافة إلى مكسب متوسط قدره 5% في الدقة المطلقة مقارنةً بالأساليب القوية السابقة. من الناحية المفاهيمية، تشير نتائجنا إلى أن أنواع التضخم المختلفة غالبًا ما تترك أثرًا في مسارات RL من خلال مجموعة صغيرة من الإحصائيات من الدرجة المنخفضة، مما يوحي بوجود أساس مكثّف للكشف عن القيم الخارجة عن التوزيع في البيئات المعقدة.