ترجمة الصور المتنوعة من خلال التمثيلات المنفصلة

الترجمة من صورة إلى صورة تهدف إلى تعلم الخريطة بين مجالين بصريين. هناك تحديان رئيسيان في العديد من التطبيقات: 1) نقص الأزواج التدريبية المتناسقة و2) وجود مخرجات متعددة محتملة من صورة مدخل واحدة. في هذا البحث، نقدم نهجًا يستند إلى التمثيل المنفصل لإنتاج مخرجات متنوعة دون الحاجة إلى صور تدريبية متناسقة. لتحقيق التنوع، نقترح إدماج الصور في فراغين: فراغ محتوى ثابت للمجال يلتقط المعلومات المشتركة عبر المجالات وفراغ خصائص خاص بالمجال. يتلقى نموذجنا الخصائص المحتوى المشفرة المستخرجة من صورة الإدخال المعطاة والأشعة الناقلة للخصائص المُستَخَدَمة من فراغ الخصائص لإنتاج مخرجات متنوعة عند الاختبار. لمعالجة البيانات التدريبية غير المتناسقة، نقدم خسارة اتساق دوري عابر جديدة تستند إلى التمثيلات المنفصلة. تظهر النتائج النوعية أن نموذجنا يمكنه إنشاء صور متنوعة وواقعية في مجموعة واسعة من المهام دون الحاجة إلى بيانات تدريبية متناسقة. بالنسبة للمقارنات الكمية، نقيس الواقعية من خلال دراسة المستخدمين والتنوع باستخدام مؤشر المسافة الحسية (perceptual distance metric). نطبق النموذج المقترح على التكيف بين المجالات ونظهر أداءً تنافسيًا عند المقارنة بأحدث التقنيات على قاعدة بيانات MNIST-M وعلى قاعدة بيانات LineMod.