HyperAIHyperAI
منذ 7 أيام

StyleSwin: GAN مبني على Transformer لإنشاء صور عالية الدقة

Bowen Zhang, Shuyang Gu, Bo Zhang, Jianmin Bao, Dong Chen, Fang Wen, Yong Wang, Baining Guo
StyleSwin: GAN مبني على Transformer لإنشاء صور عالية الدقة
الملخص

على الرغم من النجاح المثير في مجموعة واسعة من مهام الرؤية الحاسوبية، لم تُظهر نماذج الترانسفورمر (Transformers) بعد قدرة مماثلة لشبكات الترسيم التلافيفي (ConvNets) في نمذجة توليد الصور عالية الدقة. في هذه الورقة، نسعى إلى استكشاف استخدام الترانسفورمرات النقية لبناء شبكة توليدية متنافسة (Generative Adversarial Network) لتوليد الصور عالية الدقة. ولتحقيق ذلك، نرى أن الانتباه المحلي (Local Attention) يُعد عنصرًا حاسمًا لتحقيق التوازن بين الكفاءة الحسابية وقدرة النمذجة. ولهذا السبب، اعتمدنا معمارية سوين ترانسفورمر (Swin Transformer) في بنية تعتمد على الأسلوب (Style-based Architecture) في المُولِّد (Generator). ولتحقيق مجال استقبال أعرض، نقترح تقنية "الانتباه المزدوج" (Double Attention)، التي تستفيد في آن واحد من السياق الخاص بالنوافذ المحلية والنوافذ المنزاحة، مما يؤدي إلى تحسين جودة التوليد. علاوة على ذلك، نُظهر أن تزويد النموذج بالمعرفة بالموقع المطلق (Absolute Position)، والتي تُفقد عادة في الترانسفورمرات القائمة على النوافذ، يُحدث تأثيرًا إيجابيًا كبيرًا على جودة التوليد. يتميز النموذج المقترح، StyleSwin، بالقابلية للتوسع إلى دقة عالية، حيث يستفيد كل من البنية الهندسية العامة والتفاصيل الدقيقة من القوة التعبيرية العالية للترانسفورمرات. ومع ذلك، تظهر عيوب تُعرف بـ "العيوب الناتجة عن الحجب" (Blocking Artifacts) أثناء التوليد عالي الدقة، نظرًا لأن تنفيذ الانتباه المحلي بطريقة مُحَدَّدة حسب الكتل قد يُخل بتماسك الفضاء المكاني. ولحل هذه المشكلة، قمنا بدراسة تجريبية لعدة حلول، ووجدنا أن استخدام مُميّز موجي (Wavelet Discriminator) لفحص الفروق الطيفية يُعد فعّالًا في كبح هذه العيوب. أظهرت التجارب الواسعة تفوق النموذج المقترح على النماذج السابقة القائمة على الترانسفورمرات، خاصةً عند الدقة العالية، مثل 1024×1024. ويتفوّق StyleSwin على StyleGAN في مجموعة بيانات CelebA-HQ بدقة 1024، دون الحاجة إلى استراتيجيات تدريب معقدة، ويحقق أداءً مماثلًا لـ StyleGAN على مجموعة بيانات FFHQ-1024، مما يُثبت الإمكانات الكبيرة للترانسفورمرات في مجال توليد الصور عالية الدقة. سيتم إتاحة الكود والنماذج على الرابط: https://github.com/microsoft/StyleSwin.

StyleSwin: GAN مبني على Transformer لإنشاء صور عالية الدقة | أحدث الأوراق البحثية | HyperAI