HyperAIHyperAI

Command Palette

Search for a command to run...

خطأ في تحديد المكافأة

Date

منذ عام واحد

يشير الخطأ في تحديد المكافأة إلى المشكلة في التعلم التعزيزي (RL) الناجمة عن عدم تطابق وظيفة المكافأة بشكل كامل مع الهدف الحقيقي للوكيل. تعتبر هذه الظاهرة شائعة في التطبيقات العملية، لأنه في كثير من الأحيان يكون من الصعب للغاية تصميم دالة مكافأة تلبي جميع التوقعات بشكل مثالي. قد يؤدي التقليل الخاطئ للمكافأة إلى جعل السلوك الذي تعلمه العميل غير متوافق مع هدفنا المطلوب. تُسمى هذه الظاهرة أحيانًا "اختراق المكافأة"، أي أن العميل يستغل الثغرات في وظيفة المكافأة للحصول على درجات مكافأة أعلى، ولكن السلوك الفعلي قد يكون مخالفًا للهدف المتوقع.

في عام 2022، نُشرت ورقة بحثية من تأليف ألكسندر بان، وكوش بهاتيا، وجاكوب شتاينهاردت وآخرين بعنوان "آثار عدم تحديد المكافآت: رسم الخرائط وتخفيف النماذج غير المتوافقةدراسة متعمقة لتأثير سوء تحديد المكافآت. قاموا ببناء أربع بيئات تعلم معزز بمكافآت غير محددة، ودرسوا كيفية تأثير قدرات العميل (مثل سعة النموذج، ودقة مساحة العمل، وضوضاء مساحة الملاحظة، ووقت التدريب) على سلوك اختراق المكافآت. ووجدوا أن العملاء الأكثر كفاءة كانوا أكثر عرضة لاستغلال تقليل أخطاء المكافآت، مما أدى إلى زيادة مكافآت الوكيل وانخفاض المكافآت الحقيقية. بالإضافة إلى ذلك، اكتشفوا أيضًا ظاهرة "الانتقال المرحلي"، أي أن سلوك العميل سيخضع لتغيير نوعي عند وصوله إلى حد قدرة معين، مما يؤدي إلى انخفاض حاد في المكافآت الحقيقية. ولمواجهة هذا التحدي، اقترحوا مهمة كشف الشذوذ للكشف عن السياسات غير الطبيعية، ووفروا عدة كاشفات أساسية.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
خطأ في تحديد المكافأة | Wiki | HyperAI