HyperAIHyperAI
منذ 2 أشهر

معركة العصابات البيزية العميقة: مقارنة تجريبية للشبكات العصبية العميقة البيزية لعينة تومسون

Carlos Riquelme; George Tucker; Jasper Snoek
معركة العصابات البيزية العميقة: مقارنة تجريبية للشبكات العصبية العميقة البيزية لعينة تومسون
الملخص

التطورات الحديثة في التعلم العميق بالتعزيز قد أحرزت تقدمًا كبيرًا في الأداء على التطبيقات مثل لعبة الغو (Go) وألعاب آتاري (Atari). ومع ذلك، فإن تطوير طرق عملية لموازنة الاستكشاف والاستغلال في المجالات المعقدة لا يزال مشكلة غير محلولة بشكل كبير. توفر عينة ثومسون (Thompson Sampling) وتوسيعها إلى التعلم بالتعزيز نهجًا أنيقًا للاستكشاف يتطلب فقط الوصول إلى عينات ما بعدية من النموذج. وفي الوقت نفسه، أدت التطورات في الطرق البيزية التقريبية إلى جعل تقريب ما بعد للنماذج العصبية المرنة عملية عملية. لذلك، من الجذاب النظر في استخدام الشبكات العصبية البيزية التقريبية ضمن إطار عينة ثومسون. لفهم تأثير استخدام تقريب ما بعد على عينة ثومسون، قمنا بقياس أداء الطرق المثبتة حسنًا والطرق التي تم تطويرها مؤخرًا للحصول على عينات تقريبية لما بعد مدمجة مع عينة ثومسون عبر سلسلة من مشاكل البانديت السياقية (contextual bandit problems). وقد اكتشفنا أن العديد من الأساليب التي حققت نجاحًا في إعداد التعلم الإشرافي أدّت بأداء أقل في سيناريو صنع القرار المتتابع. وبشكل خاص، نسلط الضوء على تحدي مواءمة تقديرات عدم اليقين التي تتقارب ببطء إلى الإعداد المباشر.

معركة العصابات البيزية العميقة: مقارنة تجريبية للشبكات العصبية العميقة البيزية لعينة تومسون | أحدث الأوراق البحثية | HyperAI