Command Palette
Search for a command to run...

الملخص
تُعد نماذج المكافآت (RMs) حاسمة في تحسين نماذج الإنتاج باستخدام التعلم بالتعزيز (RL)، إلا أن نمط التوسع في نماذج المكافآت ضمن مجال التوليد البصري ما زال يُعد مجالًا غير مستكشف إلى حد كبير. ويرجع ذلك بشكل رئيسي إلى القيود الجوهرية في النهج الحالية: فتُعاني نماذج المكافآت المستندة إلى CLIP من قيود معمارية وقيود في نوعية المدخلات، في حين أن خسائر برايدي-تيري الشائعة لا تتماشى جوهريًا مع آلية توقع الرمز التالي في نماذج اللغة والصورة (VLMs)، مما يعيق التوسع الفعّال. وبشكل أكثر أهمية، يعاني عملية تحسين RLHF من مشكلة "الاستغلال المكافئ" (Reward Hacking)، حيث تستغل النماذج الثغرات في إشارة المكافأة دون تحسين الجودة الحقيقية. وللتغلب على هذه التحديات، نقدّم "RewardDance"، وهي إطار مرن لنموذج المكافآت يتجاوز هذه العقبات من خلال نموذج مكافأة توليدية جديد. وبإعادة صياغة درجة المكافأة كاحتمال نموذج التنبؤ برمز "نعم"، والذي يشير إلى تفوق الصورة المولدة على صورة مرجعية وفقًا لمعايير محددة، فإن RewardDance تُALIGN تلقائيًا أهداف المكافأة مع هياكل نماذج VLM. وتمكّن هذه المطابقة من التوسع على مستويين: (1) التوسع في النموذج: توسيع نماذج المكافآت بشكل منهجي حتى تصل إلى 26 مليار معلمة؛ (2) التوسع في السياق: دمج تعليمات مخصصة للمهمة، وأمثلة مرجعية، واستنتاجات سلسلية (Chain-of-Thought - CoT). وتبين التجارب الواسعة أن RewardDance تتفوق بشكل ملحوظ على أحدث الطرق في توليد الصور من النص، وتوليد الفيديو من النص، وتوليد الفيديو من الصورة. وبشكل جوهري، نحلّ المشكلة المستمرة المتمثلة في "الاستغلال المكافئ": فتُظهر نماذج المكافآت الكبيرة لدينا تباينًا عاليًا في المكافأة أثناء التدريب الدقيق باستخدام التعلم بالتعزيز، ما يثبت مقاومتها للاستغلال وقدرتها على إنتاج مخرجات متنوعة وعالية الجودة. ويساهم ذلك بشكل كبير في تخفيف مشكلة "انهيار النمط" (mode collapse) التي تعاني منها النماذج الصغيرة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.