HyperAIHyperAI

Command Palette

Search for a command to run...

التقطيع الجشع لعائد الذروة

التاريخ

منذ 4 ساعات

المؤسسة

الأكاديمية الصينية للعلوم
جامعة تسينغهوا

رابط الورقة البحثية

openreview.net

يُعدّ خوارزمية "التقطيع الجشع ذو العائد الأقصى" (PRGS) إطارًا خوارزميًا اقترحته فرق بحثية مشتركة من جامعة شاندونغ، والأكاديمية الصينية للعلوم، ولي أوتو، وجامعة تسينغهوا، ومؤسسات أخرى. وقد نُشرت نتائج الأبحاث ذات الصلة في [اسم الورقة مفقود]. تقطيع الذروة العائدة الجشع: اختيار المسار الفرعي للتعلم المعزز غير المتصل بالإنترنت القائم على المحولوقد تم قبولها من قبل المؤتمر الدولي لأبحاث العلاقات العمالية (ICLR) لعام 2026.

يهدف نظام PRGS إلى تحسين قدرات دمج التجارب وإعادة تنظيمها بشكل ملحوظ في نماذج التعلم المعزز غير المتصل بالإنترنت القائمة على Transformer (Offline RL) من خلال تقسيم المسار بشكل صريح على مستوى الخطوة الزمنية. ولمعالجة قصور الطرق الحالية التي تعتمد غالبًا على المسار الكامل والمكافأة النهائية فقط، مما يصعب معه التمييز بين الأجزاء المتميزة والدنيا ضمن المسارات الطويلة، يستخدم هذا النظام ثلاث آليات أساسية (تقدير المكافأة القائم على MMD، وسياسة التقطيع الجشعة، واقتطاع التاريخ التكيفي) لتقسيم واستخراج مسارات فرعية عالية الجودة بشكل صريح لتدريب السياسة على مستوى الخطوة الزمنية. وتُظهر التجارب أن PRGS يُحسّن بشكل كبير قدرة النموذج على دمج التجارب ذات المكافآت العالية، محققًا تحسنًا في الأداء بمعدل 15.81 TP3T مقارنةً بالخوارزمية الأساسية الأصلية في العديد من معايير الأداء المعقدة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp