التصحيح التكيفي المُعزز بالقناع والموجه بالرؤية لتحرير الصور القائمة على الدفعات

قد أظهرت نماذج التحويل من النص إلى الصورة تقدمًا ملحوظًا في إنشاء صور عالية الجودة من تعليمات النص، مما يعزز الأبحاث حول تحرير الصور القائم على التعليمات التي تقوم بتحرير صورة المصدر وفقًا لتعليمات الهدف. ومع ذلك، لا تزال الأساليب الحالية تواجه ثلاث مشكلات رئيسية: 1) قدرة محدودة للتعليمات النصية في توجيه إنشاء الصورة الهدف، 2) استخراج غير كافٍ للعلاقات بين الكلمات والشظايا (patch) والعلاقات بين الشظايا نفسها لتحديد المناطق المحررة، و3) قوة تحرير موحدة لجميع المناطق خلال كل خطوة تنقية الضوضاء. لحل هذه المشكلات، نقدم طريقة التحرير التكيفي الموجه بالرؤية والمُحسَّن بالقناع (Vision-guided and Mask-enhanced Adaptive Editing - ViMAEdit) مع ثلاثة تصاميم جديدة رئيسية. أولاً، نقترح استخدام تمثيلات الصور كإرشاد واضح لتعزيز عملية التنقية القائمة على التعليمات النصية التقليدية، حيث يتم تقديم استراتيجية تقدير تمثيل الصورة الهدف المستندة إلى CLIP. ثانيًا، نطور استراتيجية تحديد منطقة التحرير بشكل متكرر وموجه باهتمام الذات (self-attention)، والتي تستغل بشكل متكرر العلاقات بين الشظايا المعبَّر عنها في خرائط اهتمام الذات لتكرار وتوضيح تلك العلاقات بين الكلمات والشظايا الواردة في خرائط الاهتمام المتقاطع (cross-attention). وأخيرًا، نقدم عينة موجهة بتباين مكاني (spatially adaptive variance-guided sampling)، والتي تبرز الاختلافات العينية للمواد الهامة في الصورة لتعزيز قدرة التحرير. تُظهر النتائج التجريبية أن ViMAEdit يتفوق على جميع الأساليب الموجودة في قدرته على التحرير.