Command Palette
Search for a command to run...
Pref-GRPO: GRPO المستند إلى مكافأة التفضيل الزوجي للتعلم المعزز الثابت من النص إلى الصورة
Yibin Wang Zhimin Li Yuhang Zang Yujie Zhou Jiazi Bu Chunyu Wang Qinglin Lu Cheng Jin Jiaqi Wang

الملخص
تشير التطورات الحديثة إلى أهمية أساليب التعلم المعزز القائمة على GRPO وBenchmarking في تحسين إنتاج الصور من النصوص (T2I). ومع ذلك، فإن الأساليب الحالية التي تعتمد على نماذج المكافأة النقطية (RM) لتقييم الصور المولدة عرضة للاستغلال المُكافئ (reward hacking). نكشف أن هذه الظاهرة تحدث عندما تُضخم الفروق الطفيفة في الدرجات بين الصور بعد التطبيع، مما يؤدي إلى توليد مزايا وهمية تدفع النموذج إلى التحسين المفرط لتحقيق مكاسب تافهة، ما يُسبب في النهاية عدم استقرار عملية إنتاج الصور. ولحل هذه المشكلة، نقترح طريقة Pref-GRPO، وهي طريقة تعتمد على المكافأة المبنية على التفضيل الزوجي ضمن إطار GRPO، والتي تقوم بتحويل هدف التحسين من التحسين القصوي للدرجات إلى محاكاة التفضيلات، مما يضمن تدريبًا أكثر استقرارًا. في إطار Pref-GRPO، تُقارن الصور زوجيًا داخل كل مجموعة باستخدام نموذج مكافأة التفضيل (preference RM)، وتُستخدم نسبة الفوز كإشارات مكافأة. أظهرت التجارب الواسعة أن Pref-GRPO قادرة على التمييز بين الفروق الدقيقة في جودة الصور، وتوفر مزايا أكثر استقرارًا، وتقلل من احتمالية الاستغلال المُكافئ. بالإضافة إلى ذلك، تُعاني المعايير الحالية لتقييم نماذج إنتاج الصور من النصوص من قصور في دقة التقييم، مما يعيق تقييمًا شاملاً للنماذج. ولحل هذه المشكلة، نقدّم UniGenBench، وهو معيار موحد لإنتاج الصور من النصوص يضم 600 مُحفِّز (prompt) موزعة على 5 موضوعات رئيسية و20 موضوعًا فرعيًا. ويقيّم هذا المعيار الاتساق الدلالي من خلال 10 معايير رئيسية و27 معيارًا فرعيًا، مستخدمًا نماذج LLM متعددة الأغراض (MLLM) في بناء المعيار وتقييمه. وقد كشفت هذه المعايير عن نقاط القوة والضعف في نماذج إنتاج الصور من النصوص المفتوحة والمقفلة المصدر، كما أكدت فعالية طريقة Pref-GRPO.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.