الملخص

أدى التقدم السريع في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) إلى جعل مواءمة هذه النماذج مع تفضيلات الإنسان تحديًا جوهريًا. تُعدّ نماذج المكافأة (RMs) التقنية الأساسية لتحقيق هذا الهدف، ولكن لا توجد حتى الآن دليل منهجي لبناء نماذج مكافأة متعددة الوسائط (MRMs) من الدرجة الأولى، سواء في الأوساط الأكاديمية أو الصناعية. من خلال تحليل تجريبي شامل، يهدف هذا البحث إلى تقديم "وصفة واضحة" لبناء نماذج مكافأة متعددة الوسائط عالية الأداء. نقوم بدراسة منهجية لكل عنصر حاسم في سلسلة تطوير نموذج المكافأة متعدد الوسائط، بما في ذلك نماذج نمذجة المكافأة (مثل: Naive-RM، وCritic-based RM، وGenerative RM)، وهندسة رأس المكافأة، واستراتيجيات التدريب، وتجهيز البيانات (وذلك باستخدام أكثر من عشرة مجموعات بيانات تفضيلية متعددة الوسائط وبيانات نصية فقط)، ونماذج النواة (backbone) وحجم النموذج، وطرق التجميع (ensemble methods).استنادًا إلى هذه الرؤى التجريبية، نقدّم "BaseReward"، وهو أساس قوي وفعال لنمذجة المكافأة متعددة الوسائط. يتميز BaseReward ببنية بسيطة لكنها فعالة، مبنيّة على نموذج نواة {Qwen2.5-VL}، وتمتلك رأسًا مكافأة مُحسَّنًا من طبقتين، وتم تدريبه على مزيج دقيق من بيانات تفضيلية عالية الجودة متعددة الوسائط وبيانات نصية فقط. تُظهر نتائجنا أن BaseReward يحقق أداءً جديدًا على مستوى الحد الأقصى (SOTA) في معايير رئيسية مثل MM-RLHF-Reward Bench وVL-Reward Bench وMultimodal Reward Bench، متفوّقًا على النماذج السابقة. علاوة على ذلك، لتأكيد فعاليته العملية خارج المعايير الثابتة، قمنا بدمج BaseReward في خط أنابيب تعلم التفعيل الحقيقي (reinforcement learning) في بيئة واقعية، ونجحنا في تحسين أداء نموذج MLLM على مجموعة واسعة من المهام المتعلقة بالاستقبال، والاستدلال، والمحادثة. لا يقتصر هذا العمل على تقديم نموذج مكافأة متعددة الوسائط من الدرجة الأولى، بل يقدّم أيضًا للمجتمع العلمي دليلًا واضحًا ومستندًا إلى أدلة تجريبية لتطوير نماذج مكافأة قوية لجيل جديد من نماذج اللغة الكبيرة متعددة الوسائط.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

BaseReward: قاعدة قوية لنموذج المكافأة متعدد الوسائط

Yi-Fan Zhang Haihua Yang Huanyu Zhang Yang Shi Zezhou Chen Haochen Tian Chaoyou Fu Haotian Wang Kai Wu Bo Cui5 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

BaseReward: قاعدة قوية لنموذج المكافأة متعدد الوسائط

Yi-Fan Zhang Haihua Yang Huanyu Zhang Yang Shi Zezhou Chen Haochen Tian Chaoyou Fu Haotian Wang Kai Wu Bo Cui5 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

BaseReward: قاعدة قوية لنموذج المكافأة متعدد الوسائط

Yi-Fan Zhang Haihua Yang Huanyu Zhang Yang Shi Zezhou Chen Haochen Tian Chaoyou Fu Haotian Wang Kai Wu Bo Cui5 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yi-Fan Zhang Haihua Yang Huanyu Zhang Yang Shi Zezhou Chen Haochen Tian Chaoyou Fu Haotian Wang Kai Wu Bo Cui

Yi-Fan Zhang Haihua Yang Huanyu Zhang Yang Shi Zezhou Chen Haochen Tian Chaoyou Fu Haotian Wang Kai Wu Bo Cui

Yi-Fan Zhang Haihua Yang Huanyu Zhang Yang Shi Zezhou Chen Haochen Tian Chaoyou Fu Haotian Wang Kai Wu Bo Cui