ترجمة غير مشرفة من التسمية إلى الصورة باستخدام المويجات

التركيب الصوري الدلالي (SIS) هو فئة فرعية من ترجمة الصور إلى صور حيث يتم استخدام تخطيط دلالي لإنشاء صورة واقعية. الشبكات المولدة المعادية المشروطة (GANs) ذات الحالة المتقدمة تحتاج إلى كمية كبيرة من البيانات المزدوجة لإنجاز هذه المهمة، بينما تتفوق الإطارات العامة لترجمة الصور غير المزدوجة بشكل ضعيف بالمقارنة، لأنها تقوم بتشفير الألوان للتخطيطات الدلالية وتتعلم التوافق في الشكل بدلاً من المحتوى الدلالي. انطلاقاً من الافتراض أن الصورة المنشأة بجودة عالية يجب أن يتم تقسيمها مرة أخرى إلى تخطيطها الدلالي، نقترح نموذجاً جديداً غير مشرف للتركيب الصوري الدلالي (USIS) يستخدم خسارة تقسيم ذاتية ومميزة تعتمد على التحويل المويجي للصورة الكاملة. علاوة على ذلك، من أجل مطابقة توزيع الترددات العالية للصور الحقيقية، تم اقتراح هندسة مولدة جديدة في مجال التحويل المويجي. نختبر منهجيتنا على 3 قواعد بيانات صعبة ونظهر قدرتها على سد الفجوة في الأداء بين النماذج المزدوجة وغير المزدوجة.