HyperAIHyperAI
منذ 2 أشهر

ترجمة الصور متعددة الوسائط بدون إشراف

Huang, Xun ; Liu, Ming-Yu ; Belongie, Serge ; Kautz, Jan
ترجمة الصور متعددة الوسائط بدون إشراف
الملخص

الترجمة غير المراقبة للصورة إلى صورة هي مشكلة مهمة وصعبة في رؤية الحاسوب. عند تقديم صورة من المجال المصدر، الهدف هو تعلم التوزيع الشرطي للصور المقابلة في المجال المستهدف دون رؤية أي أزواج من الصور المقابلة. بينما يكون هذا التوزيع الشرطي متعدد الأوضاع بشكل جوهري، فإن النهج الموجودة تقوم بفرض افتراض مبسط للغاية، حيث تُمثَّل كخريطة حتمية من واحد إلى واحد. نتيجة لذلك، فشلت هذه النماذج في إنتاج نتائج متنوعة من صورة مصدر معينة. لمعالجة هذا القيد، نقترح إطار عمل للترجمة غير المراقبة متعددة الأوضاع للصورة إلى صورة (MUNIT). نفترض أن تمثيل الصورة يمكن تقسيمه إلى رمز محتوى ثابت بين المجالات ورمز أسلوب يلتقط خصائص خاصة بالمجال. لترجمة صورة إلى مجال آخر، نعيد الجمع بين رمز محتواها مع رمز أسلوب عشوائي مستمد من فضاء الأسلوب للمجال المستهدف. نحلل الإطار العمل المقترح ونثبت عدة نتائج نظرية. تظهر التجارب الواسعة التي تقارن بين النهج المقترحة وأحدث الأساليب الأخرى أيضًا الفوائد التي يقدمها الإطار العمل المقترح. بالإضافة إلى ذلك، يسمح إطاراتنا العمل للمستخدمين بالتحكم في أسلوب نتائج الترجمة بتقديم صورة أسلوب مثال.الكود والنموذج المدرب مسبقًا متاحان على الرابط: https://github.com/nvlabs/MUNIT

ترجمة الصور متعددة الوسائط بدون إشراف | أحدث الأوراق البحثية | HyperAI