StyleDiffusion: عكس تضمين الدعوة للتحرير القائم على النص

يُركز جهد بحثي كبير على استغلال القدرات المدهشة للنماذج التدريبية المسبقة للانتشار (diffusion models) في تحرير الصور. إما أن يتم تعديل النموذج أو عكس الصورة في الفضاء الكامن (latent space) للنموذج التدريبي المسبق. ومع ذلك، تعاني هذه الأساليب من مشكلتين رئيسيتين: (1) نتائج غير مرضية للمناطق المختارة وتغييرات غير متوقعة في المناطق غير المختارة. (2) تتطلب تعديل النصوص بدقة حيث يجب أن يشمل النص جميع الأشياء البصرية في الصورة الإدخال.لحل هذه المشكلات، نقترح تحسينين اثنين: (1) تحسين مدخلات شبكة الخطية القيمية (value linear network) فقط في طبقات الانتباه المتقاطع (cross-attention layers) يكون كافياً وقوياً بما يكفي لإعادة بناء صورة حقيقية. (2) نقترح تنظيم الانتباه (attention regularization) لحفظ خرائط الانتباه المشابهة للأجسام بعد إعادة البناء والتحرير، مما يمكّننا من الحصول على تحرير دقيق لنمط الصورة دون إحداث تغييرات هيكلية كبيرة.بالإضافة إلى ذلك، نحسن تقنية التحرير المستخدمة في الفرع اللامشروط للارشاد الخالي من المصنف (unconditional branch of classifier-free guidance) كما هو مستخدم في P2P. تظهر نتائج التجارب الواسعة لتعديل النصوص على مجموعة متنوعة من الصور بشكل نوعي وكمي أن طريقتنا لديها قدرات تحرير أفضل مقارنة بالأعمال الموجودة والمتوافقة معها. يمكنكم الرجوع إلى الكود المرافق في StyleDiffusion: \url{https://github.com/sen-mao/StyleDiffusion}.