لا بشر مطلوبين: استخراج ثلاثيات تحرير الصور ذات الجودة العالية ذاتية القيادة

أصبح من الممكن الآن تطوير مساعدات لتحرير الصور تتبع التعليمات باللغة الطبيعية دون الحاجة إلى إدخال إضافي من المستخدم، بفضل التقدم الأخير في نماذج التوليد. تتطلب هذه الأنظمة التدريب المُشرف على ملايين الثلاثيات: الصورة الأصلية، التعليمات، والصورة المُحررة. ومع ذلك، فإن استخراج أمثلة دقيقة على مستوى البكسل أمر صعب. يجب أن يؤثر كل تحرير فقط على المناطق المحددة في التعليمات، ويحافظ على اتساق الأسلوب، ويحترم المطابقة الفيزيائية، ويحتفظ بالجاذبية البصرية. يعيق نقص مؤشرات جودة التحرير الآلية القوية إمكانية التحويل إلى التلقائية على نطاق واسع. نحن نقدم مسارًا آليًا ومرنًا يُمكّن من استخراج ثلاثيات ذات دقة عالية عبر مجالات مختلفة وأحجام مختلفة وتعقيدات تعليمات وأساليب مختلفة. يتم بناء هذا النظام على نماذج توليد عامة، ويتم تشغيله دون تدخل بشري، ويستخدم مُحقق جيميني مُخصص للمهام لتقدير الامتثال للتعليمات والجمال البصري مباشرة، مما يُلغي الحاجة إلى نماذج التجزئة أو الترسيم. تساعد عملية العكس والBootstrap التكويني على توسيع مجموعة البيانات المستخرجة بنسبة تصل إلى 2.2 مرة، مما يُمكّن من تدريب البيانات على نطاق واسع ودقة عالية. من خلال تلقائية أدق الخطوات المُتكررة في التصنيف، يُتيح هذا الأسلوب مقياسًا جديدًا للتدريب دون الحاجة إلى جهود التصنيف البشرية. من أجل جعل البحث في هذا المجال الذي يتطلب موارد كبيرة متاحًا للجميع، نقوم بإطلاق مجموعة البيانات NHR-Edit: مجموعة بيانات مفتوحة تضم 358,000 ثلاثية ذات جودة عالية. في أكبر تقييم مُقارن بين المجموعات، تتفوق هذه المجموعة على جميع الخيارات المتاحة علنًا. كما نُطلق أيضًا نموذج Bagel-NHR-Edit، وهو نموذج مُعدّل بحثيًا مفتوح المصدر، والذي حقق أفضل النتائج في تجاربنا.