الميزات القابلة للإدخال والتشغيل في عمليات الانتشار لترجمة الصور المُدفوعة بالنصوص إلى صور أخرى

النماذج الجينيراتيفية (التي تولد محتوى) الكبيرة الحجم لتحويل النص إلى صورة كانت نقطة تحول ثورية في تطور الذكاء الاصطناعي الجينيراتيفي، مما أتاح لنا إنتاج صور متنوعة تعبر عن مفاهيم بصرية معقدة للغاية. ومع ذلك، فإن التحدي المحوري في الاستفادة من هذه النماذج لأداء مهام إنشاء المحتوى في العالم الحقيقي هو توفير السيطرة للمستخدم على المحتوى المُنتج. في هذا البحث، نقدم إطارًا جديدًا ينقل عملية تحويل النص إلى صورة إلى مجال الترجمة بين الصور -- بالنظر إلى صورة إرشادية ونص هدف، يستخدم طريقة عملنا قوة نموذج التوزيع (diffusion model) المُدرب مسبقًا لتحويل النص إلى صورة لإنتاج صورة جديدة تتوافق مع النص الهدف بينما تحتفظ بتخطيط المعنى للصورة الأصلية. بشكل خاص، نلاحظ ونبين من خلال التجارب أن يمكن تحقيق السيطرة الدقيقة على الهيكل المُنتج من خلال التلاعب بالخصائص الفضائية وانتباهها الذاتي داخل النموذج. هذا يؤدي إلى طريقة بسيطة وفعالة، حيث يتم حقن الخصائص المستخرجة من الصورة الإرشادية مباشرةً في عملية إنتاج الصورة الهدف، دون الحاجة إلى التدريب أو التعديل الدقيق ويكون قابلاً للتطبيق على الصور الإرشادية الحقيقية أو المنتجة. نظهر نتائج عالية الجودة في مهام الترجمة بين الصور التي توجهها النصوص المختلفة، بما في ذلك تحويل الرسومات والرسوم الأولية والرسوم المتحركة إلى صور واقعية، وتغيير فئة ومظهر الأشياء في صورة معينة، وإجراء تعديلات على جودات عامة مثل الإضاءة واللون.