HyperAIHyperAI
منذ 16 أيام

NoisyTwins: توليد صور متنوعة وموحدة من حيث الفئة من خلال StyleGANs

Harsh Rangwani, Lavish Bansal, Kartik Sharma, Tejan Karmali, Varun Jampani, R. Venkatesh Babu
NoisyTwins: توليد صور متنوعة وموحدة من حيث الفئة من خلال StyleGANs
الملخص

تُعدّ StyleGANs من أبرز التقنيات في توليد الصور القابلة للتحكم، نظرًا لقُدرتها على إنتاج فضاء خفي (latent space) منفصلًا معنويًا، مما يجعله مناسبًا لتحرير الصور وتعديلها. ومع ذلك، ينخفض أداء StyleGANs بشكل كبير عند تدريبها باستخدام التوليد الشرطي حسب الفئة على مجموعات بيانات ضخمة ذات توزيع غير متوازن (long-tailed). وجدنا أن أحد أسباب هذا الانهيار هو انهيار الفضاءات الخفية لكل فئة داخل الفضاء الخفي $\mathcal{W}$. وباستخدام منهجية NoisyTwins، نُقدّم أول استراتيجية تحسين فعّالة واقتصادية لتمثيلات الفئات (class embeddings)، والتي تُعزّز التفرّق بين الفضاءات الخفية من خلال التعلم الذاتي (self-supervision) داخل الفضاء $\mathcal{W}$. ويُسهم هذا التفرّق في تقليل ظاهرة الانهيار، مما يضمن الحفاظ على تنوع الصور داخل الفئة (intra-class diversity) مع الحفاظ على الاتساق الفئوي في عملية توليد الصور. ونُظهر فعالية منهجيتنا على مجموعات بيانات واقعية كبيرة وطويلة التوزيع، مثل ImageNet-LT وiNaturalist 2019، حيث تتفوّق منهجيتنا على الطرق الأخرى بنسبة تصل إلى 19% من حيث مؤشر FID، مما يُحدّد حالة جديدة من التميز (state-of-the-art).

NoisyTwins: توليد صور متنوعة وموحدة من حيث الفئة من خلال StyleGANs | أحدث الأوراق البحثية | HyperAI