HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 8 أيام

ديدي: الكشف السريع والقابل للتوسع عن الديناميكيات غير الموزعة

Tala Aljaafari Varun Kanade Philip Torr Christian Schroeder de Witt

ديدي: الكشف السريع والقابل للتوسع عن الديناميكيات غير الموزعة

الملخص

يُعدّ تطبيق التعلم بالتعزيز (RL) في البيئات الحساسة للسلامة مُقيّدًا بسبب ضعف الأداء عند حدوث انزياح في التوزيع. ندرس كشف القيم الخارجة عن التوزيع (OOD) في السلاسل الزمنية الخاصة بـ RL، ونقدّم DEEDEE، وهو كاشف يعتمد على إحصائيتين، يعيد النظر في النماذج المعتمدة على التمثيل المعقدة من خلال بديل بسيط للغاية. يستخدم DEEDEE فقط متوسطًا على مستوى الجلسة (episodewise) وتشابهًا باستخدام نواة RBF مع ملخص البيانات التدريبية، مما يُمكّن من التقاط الانحرافات العالمية والمحليّة المكملة. وعلى الرغم من بساطته، يُظهر DEEDEE أداءً يوازي أو يتفوق على الكواشف الحديثة في مجموعات اختبار OOD القياسية الخاصة بـ RL، مع تحقيق خفض بنسبة 600 مرة في حجم الحوسبة (عدد العمليات الحسابية FLOPs / الوقت الفعلي)، بالإضافة إلى مكسب متوسط قدره 5% في الدقة المطلقة مقارنةً بالأساليب القوية السابقة. من الناحية المفاهيمية، تشير نتائجنا إلى أن أنواع التضخم المختلفة غالبًا ما تترك أثرًا في مسارات RL من خلال مجموعة صغيرة من الإحصائيات من الدرجة المنخفضة، مما يوحي بوجود أساس مكثّف للكشف عن القيم الخارجة عن التوزيع في البيئات المعقدة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ديدي: الكشف السريع والقابل للتوسع عن الديناميكيات غير الموزعة | الأوراق البحثية | HyperAI