EditScore: فتح التعلم المعزز عبر الإنترنت للتحرير الصوري من خلال نمذجة المكافأة عالية الولادة
Xin Luo Jiahao Wang Chenyuan Wu Shitao Xiao Xiyan Jiang Defu Lian Jiajun Zhang Dong Liu Zheng Liu

الملخص
أحرزت عمليات تعديل الصور الموجهة بالتعليمات تقدماً ملحوظاً، لكن النماذج الحالية ما زالت تواجه صعوبات في التعامل مع التعليمات المعقدة، وغالباً ما تتطلب عينات متعددة للحصول على النتيجة المرجوة. تُعدّ التعلم القوي (Reinforcement Learning - RL) حلاً واعداً، لكن اعتماده في تعديل الصور كان مقيّداً بشدة بسبب غياب إشارة مكافأة عالية الدقة وفعّالة. في هذا العمل، نقدّم منهجية شاملة للتغلب على هذا التحدي، مع التركيز على تطوير نموذج مكافأة متخصص ومتقدّم على مستوى عالٍ. نُقدّم أولاً EditReward-Bench، وهو معيار شامل لتقييم نماذج المكافأة بشكل منهجي من حيث جودة التعديل. وباستناد إلى هذا المعيار، نطوّر EditScore، وهو سلسلة من نماذج المكافأة (بأحجام 7B إلى 72B) لتقييم جودة تعديل الصور الموجهة بالتعليمات. من خلال تدقيق دقيق للبيانات وتصفية مُحكمة، يُظهر EditScore أداءً يُوازي أداء نماذج VLM الخاصة المُدرّبة خصيصاً. علاوةً على ذلك، وباستخدام استراتيجية تجميع ذاتي فعّالة مُصمّمة خصيصاً لطبيعة التوليد في EditScore، يتفوّق نموذجنا الأكبر حتى على GPT-5 في المعيار. ثم نُظهر أن نموذج مكافأة عالي الدقة هو المفتاح لتمكين التعلم القوي في الوقت الفعلي (online RL) في تعديل الصور. تُظهر تجاربنا أن النماذج المفتوحة المصدر الكبيرة من VLM لا تزال تفشل في توفير إشارة تعلّم فعّالة، في حين يمكّن EditScore من تحسين السياسة بشكل كفؤ وقوي. عند تطبيق إطارنا على نموذج أساسي قوي، مثل OmniGen2، ينتج عنه نموذج نهائي يُظهر تحسّناً كبيراً ومستمراً في الأداء. بشكل عام، يقدّم هذا العمل أول مسار منهجي يمتد من التقييم عبر المعايير إلى بناء نماذج المكافأة ثم التدريب باستخدام التعلم القوي في مجال تعديل الصور، ويُظهر أن نموذج مكافأة عالي الدقة ومخصص للمجال هو المفتاح لاستغلال الإمكانات الكاملة للتعلم القوي في هذا المجال.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.