Command Palette
Search for a command to run...
RewardMap، إطار عمل للتعلم التعزيزي متعدد المراحل
تم اقتراح RewardMap بشكل مشترك من قبل فرق بحثية من جامعة ويستليك وجامعة تونغجي وجامعات أخرى في أكتوبر 2025. وقد نُشرت نتائج البحث ذات الصلة في الورقة البحثية "...".خريطة المكافآت: معالجة المكافآت المتفرقة في التفكير البصري الدقيق من خلال التعلم التعزيزي متعدد المراحل".
خريطة المكافآت (RewardMap) هو إطار عمل متعدد المراحل للتعلم التعزيزي، مُصمم لتعزيز الفهم البصري وقدرات الاستدلال لنماذج اللغات الكبيرة متعددة الوسائط (MLLMs). يتضمن الإطار ميزتين تصميميتين رئيسيتين: أولاً، يُقدم تصميمًا للمكافآت مُراعيًا للصعوبة، ويتضمن مكافآت مُفصلة، مما يُعالج مُباشرةً مشكلة ندرة المكافآت مع توفير إشراف أدق. ثانيًا، يقترح الباحثون نظامًا متعدد المراحل للتعلم التعزيزي، ينتقل تدريجيًا من المهام الإدراكية البسيطة إلى مهام الاستدلال المُعقدة، مُقدمًا استراتيجية بداية باردة أكثر فعالية من الضبط الدقيق المُشرف عليه (SFT) التقليدي.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.