HyperAIHyperAI

Command Palette

Search for a command to run...

RewardMap، إطار عمل للتعلم التعزيزي متعدد المراحل

Date

منذ 2 أشهر

Organization

الجامعة الوطنية في سنغافورة
جامعة تشجيانغ

Paper URL

2510.02240

تم اقتراح RewardMap بشكل مشترك من قبل فرق بحثية من جامعة ويستليك وجامعة تونغجي وجامعات أخرى في أكتوبر 2025. وقد نُشرت نتائج البحث ذات الصلة في الورقة البحثية "...".خريطة المكافآت: معالجة المكافآت المتفرقة في التفكير البصري الدقيق من خلال التعلم التعزيزي متعدد المراحل".

خريطة المكافآت (RewardMap) هو إطار عمل متعدد المراحل للتعلم التعزيزي، مُصمم لتعزيز الفهم البصري وقدرات الاستدلال لنماذج اللغات الكبيرة متعددة الوسائط (MLLMs). يتضمن الإطار ميزتين تصميميتين رئيسيتين: أولاً، يُقدم تصميمًا للمكافآت مُراعيًا للصعوبة، ويتضمن مكافآت مُفصلة، مما يُعالج مُباشرةً مشكلة ندرة المكافآت مع توفير إشراف أدق. ثانيًا، يقترح الباحثون نظامًا متعدد المراحل للتعلم التعزيزي، ينتقل تدريجيًا من المهام الإدراكية البسيطة إلى مهام الاستدلال المُعقدة، مُقدمًا استراتيجية بداية باردة أكثر فعالية من الضبط الدقيق المُشرف عليه (SFT) التقليدي.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp