HyperAIHyperAI

Command Palette

Search for a command to run...

خطأ في تحديد المكافأة

التاريخ

منذ عام واحد

يشير الخطأ في تحديد المكافأة إلى المشكلة في التعلم التعزيزي (RL) الناجمة عن عدم تطابق وظيفة المكافأة بشكل كامل مع الهدف الحقيقي للوكيل. تعتبر هذه الظاهرة شائعة في التطبيقات العملية، لأنه في كثير من الأحيان يكون من الصعب للغاية تصميم دالة مكافأة تلبي جميع التوقعات بشكل مثالي. قد يؤدي التقليل الخاطئ للمكافأة إلى جعل السلوك الذي تعلمه العميل غير متوافق مع هدفنا المطلوب. تُسمى هذه الظاهرة أحيانًا "اختراق المكافأة"، أي أن العميل يستغل الثغرات في وظيفة المكافأة للحصول على درجات مكافأة أعلى، ولكن السلوك الفعلي قد يكون مخالفًا للهدف المتوقع.

في عام 2022، نُشرت ورقة بحثية من تأليف ألكسندر بان، وكوش بهاتيا، وجاكوب شتاينهاردت وآخرين بعنوان "آثار عدم تحديد المكافآت: رسم الخرائط وتخفيف النماذج غير المتوافقةدراسة متعمقة لتأثير سوء تحديد المكافآت. قاموا ببناء أربع بيئات تعلم معزز بمكافآت غير محددة، ودرسوا كيفية تأثير قدرات العميل (مثل سعة النموذج، ودقة مساحة العمل، وضوضاء مساحة الملاحظة، ووقت التدريب) على سلوك اختراق المكافآت. ووجدوا أن العملاء الأكثر كفاءة كانوا أكثر عرضة لاستغلال تقليل أخطاء المكافآت، مما أدى إلى زيادة مكافآت الوكيل وانخفاض المكافآت الحقيقية. بالإضافة إلى ذلك، اكتشفوا أيضًا ظاهرة "الانتقال المرحلي"، أي أن سلوك العميل سيخضع لتغيير نوعي عند وصوله إلى حد قدرة معين، مما يؤدي إلى انخفاض حاد في المكافآت الحقيقية. ولمواجهة هذا التحدي، اقترحوا مهمة كشف الشذوذ للكشف عن السياسات غير الطبيعية، ووفروا عدة كاشفات أساسية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
خطأ في تحديد المكافأة | الموسوعة | HyperAI