HyperAIHyperAI

Command Palette

Search for a command to run...

ديدي: الكشف السريع والقابل للتوسع عن الديناميكيات غير الموزعة

Tala Aljaafari Varun Kanade Philip Torr Christian Schroeder de Witt

الملخص

يُعدّ تطبيق التعلم بالتعزيز (RL) في البيئات الحساسة للسلامة مُقيّدًا بسبب ضعف الأداء عند حدوث انزياح في التوزيع. ندرس كشف القيم الخارجة عن التوزيع (OOD) في السلاسل الزمنية الخاصة بـ RL، ونقدّم DEEDEE، وهو كاشف يعتمد على إحصائيتين، يعيد النظر في النماذج المعتمدة على التمثيل المعقدة من خلال بديل بسيط للغاية. يستخدم DEEDEE فقط متوسطًا على مستوى الجلسة (episodewise) وتشابهًا باستخدام نواة RBF مع ملخص البيانات التدريبية، مما يُمكّن من التقاط الانحرافات العالمية والمحليّة المكملة. وعلى الرغم من بساطته، يُظهر DEEDEE أداءً يوازي أو يتفوق على الكواشف الحديثة في مجموعات اختبار OOD القياسية الخاصة بـ RL، مع تحقيق خفض بنسبة 600 مرة في حجم الحوسبة (عدد العمليات الحسابية FLOPs / الوقت الفعلي)، بالإضافة إلى مكسب متوسط قدره 5% في الدقة المطلقة مقارنةً بالأساليب القوية السابقة. من الناحية المفاهيمية، تشير نتائجنا إلى أن أنواع التضخم المختلفة غالبًا ما تترك أثرًا في مسارات RL من خلال مجموعة صغيرة من الإحصائيات من الدرجة المنخفضة، مما يوحي بوجود أساس مكثّف للكشف عن القيم الخارجة عن التوزيع في البيئات المعقدة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp