ترجمة الصور إلى صور بدون تدريب مسبق

أظهرت نماذج التوليد النصية إلى الصورية على نطاق واسع قدرتها المثيرة للإعجاب على توليد صور متنوعة ذات جودة عالية. ومع ذلك، لا يزال من الصعب تطبيق هذه النماذج مباشرة لتحرير الصور الحقيقية لأسبابين رئيسيتين. أولاً، من الصعب على المستخدمين وضع دليل نصي مثالي يصف بدقة كل التفاصيل البصرية في الصورة المدخلة. ثانياً، بينما يمكن للنماذج الموجودة إدخال تغييرات مرغوبة في بعض المناطق، فإنها غالباً ما تغير بشكل كبير محتوى الصورة المدخلة وتضيف تغييرات غير متوقعة في المناطق غير المرغوب فيها.في هذا البحث، نقترح طريقة الترجمة من صورة إلى صورة "بيكس تو بكس زيرو" (pix2pix-zero) التي يمكنها الحفاظ على محتوى الصورة الأصلية دون الحاجة إلى تحفيز يدوي. أولاً، نكتشف تلقائياً اتجاهات التحرير التي تعكس التعديلات المرغوبة في فضاء تمثيل النص. لحفظ بنية المحتوى العامة بعد التحرير، نقترح أيضاً إرشاد الانتباه المتقاطع (cross-attention guidance)، الذي يهدف إلى الحفاظ على خرائط الانتباه المتقاطع للصورة المدخلة طوال عملية الانتشار (diffusion). بالإضافة إلى ذلك، لا تحتاج طريقتنا إلى تدريب إضافي لهذه التعديلات ويمكنها استخدام النموذج السابق التدريب الموجود مباشرة. أجرينا العديد من التجارب الواسعة وأظهرنا أن طريقتنا تتفوق على الأعمال الموجودة والمتزامنة لكل من تحرير الصور الحقيقية والمصنعة.