USIS: تركيب صور معنوية غير مراقبة

يُعدّ التوليد الدلالي للصور (SIS) فئة فرعية من التحويل الصوتي الصوري، حيث يتم إنتاج صورة واقعية بصريًا من قناع التجزئة (Segmentation Mask). وتم التعامل مع SIS في الغالب كمشكلة مُعلّمة. ومع ذلك، تعتمد الطرق المتطورة حاليًا على كمّ هائل من البيانات المُعلّمة، ولا يمكن تطبيقها في البيئة غير المزدوجة (unpaired setting). من ناحية أخرى، تُظهر الإطارات العامة للتحويل الصوتي الصوري غير المزدوجة أداءً أقل مقارنةً بالطرق الأخرى، لأنها تقوم بتلوين التخطيطات الدلالية (semantic layouts) وتدفعها إلى الشبكات التلافيفية التقليدية (convolutional networks)، التي تتعلم التماثلات في المظهر بدلاً من المحتوى الدلالي. في هذا العمل الأولي، نقترح منهجية جديدة غير مُعلّمة للتوليد الدلالي للصور (USIS) كخطوة أولى نحو تضييق الفجوة في الأداء بين البيئات المزدوجة وغير المزدوجة. وتجدر الإشارة إلى أن الإطار المُقترح يستخدم مولّدًا من نوع SPADE يتعلم إنتاج صور ذات فئات دلالية مرئية متميزة، باستخدام خسارة تجزئة ذاتية التعلم (self-supervised segmentation loss). علاوةً على ذلك، لتماثل توزيع الألوان والملمس في الصور الحقيقية دون فقدان المعلومات ذات التردد العالي، نقترح استخدام تمييز يعتمد على التحويل الموجي للصورة بأكملها (whole image wavelet-based discrimination). وقد اختبرنا منهجيتنا على ثلاث مجموعات بيانات صعبة، وأظهرنا قدرتها على إنتاج صور واقعية بصريًا متعددة النماذج (multimodal) بجودة محسّنة في البيئة غير المزدوجة.