ال inversión النصية الفارغة لتحرير الصور الحقيقية باستخدام نماذج التوسع الموجهة

النماذج الموزعة الموجهة بالنص الحديثة توفر قدرات قوية لإنشاء الصور. حاليًا، يتم بذل جهد ضخم لتمكين تعديل هذه الصور باستخدام النص فقط كوسيلة لتقديم تحرير بديهي ومتنوع. لتحرير صورة حقيقية باستخدام هذه الأدوات الرائدة، يجب أولاً عكس الصورة مع دعوة نصية ذات معنى إلى مجال النموذج المدرب مسبقًا. في هذا البحث، نقدم تقنية عكس دقيقة تسهل التحرير القائم على النص بشكل بديهي. يتكون العكس المقترح لدينا من مكونين رئيسيين جديدين: (i) العكس المحوري للنماذج الموزعة. بينما تهدف الطرق الحالية إلى رسم عينات الضوضاء العشوائية إلى صورة مدخل واحدة، نحن نستخدم متجه ضوضاء محوري واحد لكل زمن ونقوم بالتحسين حوله. نوضح أن العكس المباشر غير كافٍ بمفرده، ولكنه يوفر نقطة ارتكاز جيدة لتحسيننا. (ii) التحسين بدون نص (NULL-text)، حيث نقوم فقط بتعديل التضمين النصي غير الشرطي المستخدم للإرشاد الخالي من المصنف، بدلاً من التضمين النصي الشرطي للمدخلات. هذا يسمح بالحفاظ على وزن النموذج والتضمين الشرطي دون تغيير، وبالتالي تمكين تطبيق التحرير القائم على الدعوة مع تجنب ضبط وزن النموذج المعقد. تم تقييم عكسنا بدون نص (Null-text)، الذي يستند إلى نموذج Stable Diffusion المتاح للجمهور، بشكل مكثف على مجموعة متنوعة من الصور والتحرير القائم على الدعوة، مما أظهر قدرته على تقديم تحرير حقيقي ذو دقة عالية.