HyperAIHyperAI
منذ 17 أيام

شبكات GAN ذات التكلفة المتغيرة للتركيب والتحرير التفاعلي للصور

Ji Lin, Richard Zhang, Frieder Ganz, Song Han, Jun-Yan Zhu
شبكات GAN ذات التكلفة المتغيرة للتركيب والتحرير التفاعلي للصور
الملخص

تمكّنت الشبكات التوليدية التنافسية (GANs) من تحقيق توليد وتحرير صور واقعية للغاية. ومع ذلك، نظرًا للتكلفة الحسابية العالية للمحوّلات الكبيرة (مثل StyleGAN2)، فإن عرض نتائج تحرير واحد غالبًا ما يستغرق ثوانٍ على الأجهزة الحافة، مما يحول دون تجربة تفاعلية للمستخدم. في هذه الورقة، نستلهم من برامج التصيير الحديثة ونُقدّم نموذج Anycost GAN لتحرير الصور الطبيعية بشكل تفاعلي. تم تدريب Anycost GAN لدعم تغييرات مرنة في الدقة والقنوات، مما يتيح توليد صور بأسرع السرعات الممكنة. وعند تشغيل أجزاء من المحول الكامل، يتم إنتاج نتائج تشبه النتائج الناتجة عن المحول الكامل من حيث الإدراك البصري، مما يجعلها بديلًا جيدًا لعرض مُسبق. وباستخدام تدريب متعدد الدقائق القائمة على العينات، وتدريب متغير القنوات، ومحارب مُشَرَّط حسب المحول، يمكن تقييم المحول القابل للتكيف بتكوينات مختلفة، مع تحقيق جودة صورة أفضل مقارنة بالنماذج المدربة بشكل منفصل. علاوةً على ذلك، طوّرنا تقنيات جديدة في تدريب المشفر (encoder) وتحسين الرموز المخفية (latent codes) لتعزيز التماسك بين المحولات الفرعية المختلفة أثناء عملية تمرير الصور. يمكن تشغيل Anycost GAN ضمن ميزانيات تكلفة مختلفة (بحد أقصى تقليل في الحساب بنسبة 10 أضعاف)، وتمكّنه من التكيّف مع طيف واسع من الأجهزة ومتطلبات التأخير. عند نشره على وحدات المعالجة المركزية المكتبية والأجهزة الحافة، يمكن للنموذج تقديم عروض مُسبقة تشبه الإدراك البصري بسرعة تصل إلى 6 إلى 12 مرة، مما يمكّن من تحرير الصور بشكل تفاعلي. تم إتاحة الكود والعرض التوضيحي بشكل عام: https://github.com/mit-han-lab/anycost-gan.

شبكات GAN ذات التكلفة المتغيرة للتركيب والتحرير التفاعلي للصور | أحدث الأوراق البحثية | HyperAI