منذ 3 أشهر

الملخص

يُعدّ تطبيق التعلم بالتعزيز (RL) في البيئات الحساسة للسلامة مُقيّدًا بسبب ضعف الأداء عند حدوث انزياح في التوزيع. ندرس كشف القيم الخارجة عن التوزيع (OOD) في السلاسل الزمنية الخاصة بـ RL، ونقدّم DEEDEE، وهو كاشف يعتمد على إحصائيتين، يعيد النظر في النماذج المعتمدة على التمثيل المعقدة من خلال بديل بسيط للغاية. يستخدم DEEDEE فقط متوسطًا على مستوى الجلسة (episodewise) وتشابهًا باستخدام نواة RBF مع ملخص البيانات التدريبية، مما يُمكّن من التقاط الانحرافات العالمية والمحليّة المكملة. وعلى الرغم من بساطته، يُظهر DEEDEE أداءً يوازي أو يتفوق على الكواشف الحديثة في مجموعات اختبار OOD القياسية الخاصة بـ RL، مع تحقيق خفض بنسبة 600 مرة في حجم الحوسبة (عدد العمليات الحسابية FLOPs / الوقت الفعلي)، بالإضافة إلى مكسب متوسط قدره 5% في الدقة المطلقة مقارنةً بالأساليب القوية السابقة. من الناحية المفاهيمية، تشير نتائجنا إلى أن أنواع التضخم المختلفة غالبًا ما تترك أثرًا في مسارات RL من خلال مجموعة صغيرة من الإحصائيات من الدرجة المنخفضة، مما يوحي بوجود أساس مكثّف للكشف عن القيم الخارجة عن التوزيع في البيئات المعقدة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Tala Aljaafari Varun Kanade Philip Torr Christian Schroeder de Witt

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Tala Aljaafari Varun Kanade Philip Torr Christian Schroeder de Witt

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Tala Aljaafari Varun Kanade Philip Torr Christian Schroeder de Witt

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ديدي: الكشف السريع والقابل للتوسع عن الديناميكيات غير الموزعة

Tala Aljaafari Varun Kanade Philip Torr Christian Schroeder de Witt

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ديدي: الكشف السريع والقابل للتوسع عن الديناميكيات غير الموزعة

Tala Aljaafari Varun Kanade Philip Torr Christian Schroeder de Witt

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ديدي: الكشف السريع والقابل للتوسع عن الديناميكيات غير الموزعة

Tala Aljaafari Varun Kanade Philip Torr Christian Schroeder de Witt

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters