HyperAIHyperAI
منذ 17 أيام

إلى تدريب أسرع واستقرار أقوى لشبكات التوليد التناقضية (GAN) لصياغة صور عالية الوضوح بكميات قليلة من الأمثلة

Bingchen Liu, Yizhe Zhu, Kunpeng Song, Ahmed Elgammal
إلى تدريب أسرع واستقرار أقوى لشبكات التوليد التناقضية (GAN) لصياغة صور عالية الوضوح بكميات قليلة من الأمثلة
الملخص

يُعد تدريب شبكات التوليد التنافسيّة (GAN) على صور عالية الدقة عادةً يتطلب مجموعات ضخمة من وحدات معالجة الرسوميات (GPU) وعددًا كبيرًا جدًا من الصور التدريبية. في هذه الورقة، نستعرض مهمة توليد الصور من عدد قليل من الأمثلة (few-shot image synthesis) لشبكات GAN مع الحد الأدنى من التكاليف الحسابية. نقترح بنية GAN خفيفة الوزن تحقق جودة متفوّقة على دقة 1024×1024. وبشكل لافت، تتماشى النموذج من الصفر بوقت تدريب لا يتجاوز بضع ساعات على وحدة معالجة رسوميات واحدة من نوع RTX-2080، مع الحفاظ على أداء متسق حتى عند استخدام أقل من 100 عينة تدريبية. تتكون عملنا من تصميمين تقنيين: أولهما وحدة تنشيط قنواتية ذات طبقة تخطّي (skip-layer channel-wise excitation module)، والثاني هو مُميّز ذاتي التدريب (self-supervised discriminator) المُدرّب كمحوّل ميزات (feature-encoder). وباستخدام ثلاثة عشر مجموعة بيانات تغطي طيفًا واسعًا من مجالات الصور (ويمكن الوصول إلى البيانات والكود عبر: https://github.com/odegeasslbc/FastGAN-pytorch)، نُظهر تفوق نموذجنا على الحد الأقصى المُتاح في الأداء (State-of-the-art) مثل StyleGAN2، خاصة في الظروف التي تكون فيها البيانات وموارد الحوسبة محدودة.

إلى تدريب أسرع واستقرار أقوى لشبكات التوليد التناقضية (GAN) لصياغة صور عالية الوضوح بكميات قليلة من الأمثلة | أحدث الأوراق البحثية | HyperAI