HyperAIHyperAI

Command Palette

Search for a command to run...

NoisyTwins: توليد صور متنوعة وموحدة من حيث الفئة من خلال StyleGANs

Harsh Rangwani Lavish Bansal Kartik Sharma Tejan Karmali Varun Jampani R. Venkatesh Babu

الملخص

تُعدّ StyleGANs من أبرز التقنيات في توليد الصور القابلة للتحكم، نظرًا لقُدرتها على إنتاج فضاء خفي (latent space) منفصلًا معنويًا، مما يجعله مناسبًا لتحرير الصور وتعديلها. ومع ذلك، ينخفض أداء StyleGANs بشكل كبير عند تدريبها باستخدام التوليد الشرطي حسب الفئة على مجموعات بيانات ضخمة ذات توزيع غير متوازن (long-tailed). وجدنا أن أحد أسباب هذا الانهيار هو انهيار الفضاءات الخفية لكل فئة داخل الفضاء الخفي W\mathcal{W}W. وباستخدام منهجية NoisyTwins، نُقدّم أول استراتيجية تحسين فعّالة واقتصادية لتمثيلات الفئات (class embeddings)، والتي تُعزّز التفرّق بين الفضاءات الخفية من خلال التعلم الذاتي (self-supervision) داخل الفضاء W\mathcal{W}W. ويُسهم هذا التفرّق في تقليل ظاهرة الانهيار، مما يضمن الحفاظ على تنوع الصور داخل الفئة (intra-class diversity) مع الحفاظ على الاتساق الفئوي في عملية توليد الصور. ونُظهر فعالية منهجيتنا على مجموعات بيانات واقعية كبيرة وطويلة التوزيع، مثل ImageNet-LT وiNaturalist 2019، حيث تتفوّق منهجيتنا على الطرق الأخرى بنسبة تصل إلى 19% من حيث مؤشر FID، مما يُحدّد حالة جديدة من التميز (state-of-the-art).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
NoisyTwins: توليد صور متنوعة وموحدة من حيث الفئة من خلال StyleGANs | مستندات | HyperAI