NoisyTwins: توليد صور متنوعة وموحدة من حيث الفئة من خلال StyleGANs

تُعدّ StyleGANs من أبرز التقنيات في توليد الصور القابلة للتحكم، نظرًا لقُدرتها على إنتاج فضاء خفي (latent space) منفصلًا معنويًا، مما يجعله مناسبًا لتحرير الصور وتعديلها. ومع ذلك، ينخفض أداء StyleGANs بشكل كبير عند تدريبها باستخدام التوليد الشرطي حسب الفئة على مجموعات بيانات ضخمة ذات توزيع غير متوازن (long-tailed). وجدنا أن أحد أسباب هذا الانهيار هو انهيار الفضاءات الخفية لكل فئة داخل الفضاء الخفي $\mathcal{W}$. وباستخدام منهجية NoisyTwins، نُقدّم أول استراتيجية تحسين فعّالة واقتصادية لتمثيلات الفئات (class embeddings)، والتي تُعزّز التفرّق بين الفضاءات الخفية من خلال التعلم الذاتي (self-supervision) داخل الفضاء $\mathcal{W}$. ويُسهم هذا التفرّق في تقليل ظاهرة الانهيار، مما يضمن الحفاظ على تنوع الصور داخل الفئة (intra-class diversity) مع الحفاظ على الاتساق الفئوي في عملية توليد الصور. ونُظهر فعالية منهجيتنا على مجموعات بيانات واقعية كبيرة وطويلة التوزيع، مثل ImageNet-LT وiNaturalist 2019، حيث تتفوّق منهجيتنا على الطرق الأخرى بنسبة تصل إلى 19% من حيث مؤشر FID، مما يُحدّد حالة جديدة من التميز (state-of-the-art).