Command Palette
Search for a command to run...
Tala Aljaafari Varun Kanade Philip Torr Christian Schroeder de Witt

الملخص
يُعدّ تطبيق التعلم بالتعزيز (RL) في البيئات الحساسة للسلامة مُقيّدًا بسبب ضعف الأداء عند حدوث انزياح في التوزيع. ندرس كشف القيم الخارجة عن التوزيع (OOD) في السلاسل الزمنية الخاصة بـ RL، ونقدّم DEEDEE، وهو كاشف يعتمد على إحصائيتين، يعيد النظر في النماذج المعتمدة على التمثيل المعقدة من خلال بديل بسيط للغاية. يستخدم DEEDEE فقط متوسطًا على مستوى الجلسة (episodewise) وتشابهًا باستخدام نواة RBF مع ملخص البيانات التدريبية، مما يُمكّن من التقاط الانحرافات العالمية والمحليّة المكملة. وعلى الرغم من بساطته، يُظهر DEEDEE أداءً يوازي أو يتفوق على الكواشف الحديثة في مجموعات اختبار OOD القياسية الخاصة بـ RL، مع تحقيق خفض بنسبة 600 مرة في حجم الحوسبة (عدد العمليات الحسابية FLOPs / الوقت الفعلي)، بالإضافة إلى مكسب متوسط قدره 5% في الدقة المطلقة مقارنةً بالأساليب القوية السابقة. من الناحية المفاهيمية، تشير نتائجنا إلى أن أنواع التضخم المختلفة غالبًا ما تترك أثرًا في مسارات RL من خلال مجموعة صغيرة من الإحصائيات من الدرجة المنخفضة، مما يوحي بوجود أساس مكثّف للكشف عن القيم الخارجة عن التوزيع في البيئات المعقدة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.