HyperAI超神经

يشير الخطأ في تحديد المكافأة إلى المشكلة في التعلم التعزيزي (RL) الناجمة عن عدم تطابق وظيفة المكافأة بشكل كامل مع الهدف الحقيقي للوكيل. تعتبر هذه الظاهرة شائعة في التطبيقات العملية، لأنه في كثير من الأحيان يكون من الصعب للغاية تصميم دالة مكافأة تلبي جميع التوقعات بشكل مثالي. قد يؤدي التقليل الخاطئ للمكافأة إلى جعل السلوك الذي تعلمه العميل غير متوافق مع هدفنا المطلوب. تُسمى هذه الظاهرة أحيانًا "اختراق المكافأة"، أي أن العميل يستغل الثغرات في وظيفة المكافأة للحصول على درجات مكافأة أعلى، ولكن السلوك الفعلي قد يكون مخالفًا للهدف المتوقع.

في عام 2022، نُشرت ورقة بحثية من تأليف ألكسندر بان، وكوش بهاتيا، وجاكوب شتاينهاردت وآخرين بعنوان "آثار عدم تحديد المكافآت: رسم الخرائط وتخفيف النماذج غير المتوافقةدراسة متعمقة لتأثير سوء تحديد المكافآت. قاموا ببناء أربع بيئات تعلم معزز بمكافآت غير محددة، ودرسوا كيفية تأثير قدرات العميل (مثل سعة النموذج، ودقة مساحة العمل، وضوضاء مساحة الملاحظة، ووقت التدريب) على سلوك اختراق المكافآت. ووجدوا أن العملاء الأكثر كفاءة كانوا أكثر عرضة لاستغلال تقليل أخطاء المكافآت، مما أدى إلى زيادة مكافآت الوكيل وانخفاض المكافآت الحقيقية. بالإضافة إلى ذلك، اكتشفوا أيضًا ظاهرة "الانتقال المرحلي"، أي أن سلوك العميل سيخضع لتغيير نوعي عند وصوله إلى حد قدرة معين، مما يؤدي إلى انخفاض حاد في المكافآت الحقيقية. ولمواجهة هذا التحدي، اقترحوا مهمة كشف الشذوذ للكشف عن السياسات غير الطبيعية، ووفروا عدة كاشفات أساسية.