Command Palette
Search for a command to run...

الملخص
أدى التقدم السريع في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) إلى جعل مواءمة هذه النماذج مع تفضيلات الإنسان تحديًا جوهريًا. تُعدّ نماذج المكافأة (RMs) التقنية الأساسية لتحقيق هذا الهدف، ولكن لا توجد حتى الآن دليل منهجي لبناء نماذج مكافأة متعددة الوسائط (MRMs) من الدرجة الأولى، سواء في الأوساط الأكاديمية أو الصناعية. من خلال تحليل تجريبي شامل، يهدف هذا البحث إلى تقديم "وصفة واضحة" لبناء نماذج مكافأة متعددة الوسائط عالية الأداء. نقوم بدراسة منهجية لكل عنصر حاسم في سلسلة تطوير نموذج المكافأة متعدد الوسائط، بما في ذلك نماذج نمذجة المكافأة (مثل: Naive-RM، وCritic-based RM، وGenerative RM)، وهندسة رأس المكافأة، واستراتيجيات التدريب، وتجهيز البيانات (وذلك باستخدام أكثر من عشرة مجموعات بيانات تفضيلية متعددة الوسائط وبيانات نصية فقط)، ونماذج النواة (backbone) وحجم النموذج، وطرق التجميع (ensemble methods).استنادًا إلى هذه الرؤى التجريبية، نقدّم "BaseReward"، وهو أساس قوي وفعال لنمذجة المكافأة متعددة الوسائط. يتميز BaseReward ببنية بسيطة لكنها فعالة، مبنيّة على نموذج نواة {Qwen2.5-VL}، وتمتلك رأسًا مكافأة مُحسَّنًا من طبقتين، وتم تدريبه على مزيج دقيق من بيانات تفضيلية عالية الجودة متعددة الوسائط وبيانات نصية فقط. تُظهر نتائجنا أن BaseReward يحقق أداءً جديدًا على مستوى الحد الأقصى (SOTA) في معايير رئيسية مثل MM-RLHF-Reward Bench وVL-Reward Bench وMultimodal Reward Bench، متفوّقًا على النماذج السابقة. علاوة على ذلك، لتأكيد فعاليته العملية خارج المعايير الثابتة، قمنا بدمج BaseReward في خط أنابيب تعلم التفعيل الحقيقي (reinforcement learning) في بيئة واقعية، ونجحنا في تحسين أداء نموذج MLLM على مجموعة واسعة من المهام المتعلقة بالاستقبال، والاستدلال، والمحادثة. لا يقتصر هذا العمل على تقديم نموذج مكافأة متعددة الوسائط من الدرجة الأولى، بل يقدّم أيضًا للمجتمع العلمي دليلًا واضحًا ومستندًا إلى أدلة تجريبية لتطوير نماذج مكافأة قوية لجيل جديد من نماذج اللغة الكبيرة متعددة الوسائط.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.