HyperAIHyperAI

Command Palette

Search for a command to run...

RewardMap، إطار عمل للتعلم التعزيزي متعدد المراحل

التاريخ

منذ 2 أشهر

المؤسسة

الجامعة الوطنية في سنغافورة
جامعة تشجيانغ

رابط الورقة البحثية

2510.02240

تم اقتراح RewardMap بشكل مشترك من قبل فرق بحثية من جامعة ويستليك وجامعة تونغجي وجامعات أخرى في أكتوبر 2025. وقد نُشرت نتائج البحث ذات الصلة في الورقة البحثية "...".خريطة المكافآت: معالجة المكافآت المتفرقة في التفكير البصري الدقيق من خلال التعلم التعزيزي متعدد المراحل".

خريطة المكافآت (RewardMap) هو إطار عمل متعدد المراحل للتعلم التعزيزي، مُصمم لتعزيز الفهم البصري وقدرات الاستدلال لنماذج اللغات الكبيرة متعددة الوسائط (MLLMs). يتضمن الإطار ميزتين تصميميتين رئيسيتين: أولاً، يُقدم تصميمًا للمكافآت مُراعيًا للصعوبة، ويتضمن مكافآت مُفصلة، مما يُعالج مُباشرةً مشكلة ندرة المكافآت مع توفير إشراف أدق. ثانيًا، يقترح الباحثون نظامًا متعدد المراحل للتعلم التعزيزي، ينتقل تدريجيًا من المهام الإدراكية البسيطة إلى مهام الاستدلال المُعقدة، مُقدمًا استراتيجية بداية باردة أكثر فعالية من الضبط الدقيق المُشرف عليه (SFT) التقليدي.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
RewardMap، إطار عمل للتعلم التعزيزي متعدد المراحل | Wiki | HyperAI