ترجمة الصور متعددة الوسائط بدون إشراف

الترجمة غير المراقبة للصورة إلى صورة هي مشكلة مهمة وصعبة في رؤية الحاسوب. عند تقديم صورة من المجال المصدر، الهدف هو تعلم التوزيع الشرطي للصور المقابلة في المجال المستهدف دون رؤية أي أزواج من الصور المقابلة. بينما يكون هذا التوزيع الشرطي متعدد الأوضاع بشكل جوهري، فإن النهج الموجودة تقوم بفرض افتراض مبسط للغاية، حيث تُمثَّل كخريطة حتمية من واحد إلى واحد. نتيجة لذلك، فشلت هذه النماذج في إنتاج نتائج متنوعة من صورة مصدر معينة. لمعالجة هذا القيد، نقترح إطار عمل للترجمة غير المراقبة متعددة الأوضاع للصورة إلى صورة (MUNIT). نفترض أن تمثيل الصورة يمكن تقسيمه إلى رمز محتوى ثابت بين المجالات ورمز أسلوب يلتقط خصائص خاصة بالمجال. لترجمة صورة إلى مجال آخر، نعيد الجمع بين رمز محتواها مع رمز أسلوب عشوائي مستمد من فضاء الأسلوب للمجال المستهدف. نحلل الإطار العمل المقترح ونثبت عدة نتائج نظرية. تظهر التجارب الواسعة التي تقارن بين النهج المقترحة وأحدث الأساليب الأخرى أيضًا الفوائد التي يقدمها الإطار العمل المقترح. بالإضافة إلى ذلك، يسمح إطاراتنا العمل للمستخدمين بالتحكم في أسلوب نتائج الترجمة بتقديم صورة أسلوب مثال.الكود والنموذج المدرب مسبقًا متاحان على الرابط: https://github.com/nvlabs/MUNIT