HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 8 أيام

RewardMap: معالجة المكافآت النادرة في الاستدلال البصري الدقيق من خلال التعلم المعزز متعدد المراحل

Sicheng Feng Kaiwen Tuo Song Wang Lingdong Kong Jianke Zhu Huan Wang

RewardMap: معالجة المكافآت النادرة في الاستدلال البصري الدقيق من خلال التعلم المعزز متعدد المراحل

الملخص

لا يزال الاستدلال البصري الدقيق تحديًا أساسيًا بالنسبة إلى النماذج الكبيرة متعددة الوسائط للغة (MLLMs). وقد أبرزت "ReasonMap"، التي تم إطلاقها مؤخرًا، هذه الفجوة من خلال إظهار أن النماذج المتقدمة من نوع MLLMs تواجه صعوبات في الاستدلال المكاني ضمن بيئات منظمة وغنية بالمعلومات، مثل خرائط النقل العام، وهي مهمة ذات أهمية عملية وعلمية واضحة. ومع ذلك، فإن التعلم المعزز القياسي (RL) في مثل هذه المهام يواجه عقبات بسبب جودة المكافآت النادرة وعدم استقرار عملية التحسين. ولحل هذه المشكلة، قمنا أولًا ببناء مجموعة بيانات موسعة تُدعى ReasonMap-Plus، والتي تُدخل إشارات مكافآت كثيفة من خلال مهام الإجابة على الأسئلة البصرية (VQA)، مما يمكّن من تدريب فعّال لمهارات الفهم البصري الدقيق منذ البداية (cold-start). ثم قمنا بطرح إطار عمل يُسمى RewardMap، وهو إطار متعدد المراحل للتعلم المعزز مصمم لتحسين كلا الجوانب: الفهم البصري والقدرة على الاستدلال لدى نماذج MLLMs. ويتميز RewardMap بتصميمين رئيسيين. أولاً، نقدّم تصميمًا للـ"مكافأة يراعي مستوى الصعوبة"، يدمج مكافآت تفصيلية، مما يعالج مباشرة مشكلة ندرة المكافآت ويوفّر إشرافًا أكثر غنىً. ثانيًا، نقترح خطة للتعلم المعزز متعددة المراحل، تبدأ التدريب من المهام البسيطة في التمييز البصري إلى المهام المعقدة في الاستدلال، مما يوفر استراتيجية تدريب فعّالة منذ البداية (cold-start) تفوق التقنيات التقليدية للتحسين المراقب (SFT). وقد أظهرت التجارب على مجموعة البيانات ReasonMap وReasonMap-Plus أن كل عنصر من عناصر RewardMap يسهم في تحسين الأداء بشكل مستمر، بينما يؤدي دمجها معًا إلى أفضل النتائج. علاوة على ذلك، حققت النماذج التي تم تدريبها باستخدام RewardMap تحسنًا متوسطًا قدره 3.47% عبر ستة معايير تشمل الاستدلال المكاني، والاستدلال البصري الدقيق، والمهام العامة التي تتجاوز خرائط النقل العام، مما يؤكد تحسين قدرات الفهم البصري والتفكير الاستدلالي.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
RewardMap: معالجة المكافآت النادرة في الاستدلال البصري الدقيق من خلال التعلم المعزز متعدد المراحل | الأوراق البحثية | HyperAI