HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

BaseReward: قاعدة قوية لنموذج المكافأة متعدد الوسائط

BaseReward: قاعدة قوية لنموذج المكافأة متعدد الوسائط

الملخص

أدى التقدم السريع في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) إلى جعل مواءمة هذه النماذج مع تفضيلات الإنسان تحديًا جوهريًا. تُعدّ نماذج المكافأة (RMs) التقنية الأساسية لتحقيق هذا الهدف، ولكن لا توجد حتى الآن دليل منهجي لبناء نماذج مكافأة متعددة الوسائط (MRMs) من الدرجة الأولى، سواء في الأوساط الأكاديمية أو الصناعية. من خلال تحليل تجريبي شامل، يهدف هذا البحث إلى تقديم "وصفة واضحة" لبناء نماذج مكافأة متعددة الوسائط عالية الأداء. نقوم بدراسة منهجية لكل عنصر حاسم في سلسلة تطوير نموذج المكافأة متعدد الوسائط، بما في ذلك نماذج نمذجة المكافأة (مثل: Naive-RM، وCritic-based RM، وGenerative RM)، وهندسة رأس المكافأة، واستراتيجيات التدريب، وتجهيز البيانات (وذلك باستخدام أكثر من عشرة مجموعات بيانات تفضيلية متعددة الوسائط وبيانات نصية فقط)، ونماذج النواة (backbone) وحجم النموذج، وطرق التجميع (ensemble methods).استنادًا إلى هذه الرؤى التجريبية، نقدّم "BaseReward"، وهو أساس قوي وفعال لنمذجة المكافأة متعددة الوسائط. يتميز BaseReward ببنية بسيطة لكنها فعالة، مبنيّة على نموذج نواة {Qwen2.5-VL}، وتمتلك رأسًا مكافأة مُحسَّنًا من طبقتين، وتم تدريبه على مزيج دقيق من بيانات تفضيلية عالية الجودة متعددة الوسائط وبيانات نصية فقط. تُظهر نتائجنا أن BaseReward يحقق أداءً جديدًا على مستوى الحد الأقصى (SOTA) في معايير رئيسية مثل MM-RLHF-Reward Bench وVL-Reward Bench وMultimodal Reward Bench، متفوّقًا على النماذج السابقة. علاوة على ذلك، لتأكيد فعاليته العملية خارج المعايير الثابتة، قمنا بدمج BaseReward في خط أنابيب تعلم التفعيل الحقيقي (reinforcement learning) في بيئة واقعية، ونجحنا في تحسين أداء نموذج MLLM على مجموعة واسعة من المهام المتعلقة بالاستقبال، والاستدلال، والمحادثة. لا يقتصر هذا العمل على تقديم نموذج مكافأة متعددة الوسائط من الدرجة الأولى، بل يقدّم أيضًا للمجتمع العلمي دليلًا واضحًا ومستندًا إلى أدلة تجريبية لتطوير نماذج مكافأة قوية لجيل جديد من نماذج اللغة الكبيرة متعددة الوسائط.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
BaseReward: قاعدة قوية لنموذج المكافأة متعدد الوسائط | الأوراق البحثية | HyperAI