منذ 6 أشهر

الملخص

على الرغم من النجاح المثير في مجموعة واسعة من مهام الرؤية الحاسوبية، لم تُظهر نماذج الترانسفورمر (Transformers) بعد قدرة مماثلة لشبكات الترسيم التلافيفي (ConvNets) في نمذجة توليد الصور عالية الدقة. في هذه الورقة، نسعى إلى استكشاف استخدام الترانسفورمرات النقية لبناء شبكة توليدية متنافسة (Generative Adversarial Network) لتوليد الصور عالية الدقة. ولتحقيق ذلك، نرى أن الانتباه المحلي (Local Attention) يُعد عنصرًا حاسمًا لتحقيق التوازن بين الكفاءة الحسابية وقدرة النمذجة. ولهذا السبب، اعتمدنا معمارية سوين ترانسفورمر (Swin Transformer) في بنية تعتمد على الأسلوب (Style-based Architecture) في المُولِّد (Generator). ولتحقيق مجال استقبال أعرض، نقترح تقنية "الانتباه المزدوج" (Double Attention)، التي تستفيد في آن واحد من السياق الخاص بالنوافذ المحلية والنوافذ المنزاحة، مما يؤدي إلى تحسين جودة التوليد. علاوة على ذلك، نُظهر أن تزويد النموذج بالمعرفة بالموقع المطلق (Absolute Position)، والتي تُفقد عادة في الترانسفورمرات القائمة على النوافذ، يُحدث تأثيرًا إيجابيًا كبيرًا على جودة التوليد. يتميز النموذج المقترح، StyleSwin، بالقابلية للتوسع إلى دقة عالية، حيث يستفيد كل من البنية الهندسية العامة والتفاصيل الدقيقة من القوة التعبيرية العالية للترانسفورمرات. ومع ذلك، تظهر عيوب تُعرف بـ "العيوب الناتجة عن الحجب" (Blocking Artifacts) أثناء التوليد عالي الدقة، نظرًا لأن تنفيذ الانتباه المحلي بطريقة مُحَدَّدة حسب الكتل قد يُخل بتماسك الفضاء المكاني. ولحل هذه المشكلة، قمنا بدراسة تجريبية لعدة حلول، ووجدنا أن استخدام مُميّز موجي (Wavelet Discriminator) لفحص الفروق الطيفية يُعد فعّالًا في كبح هذه العيوب. أظهرت التجارب الواسعة تفوق النموذج المقترح على النماذج السابقة القائمة على الترانسفورمرات، خاصةً عند الدقة العالية، مثل 1024×1024. ويتفوّق StyleSwin على StyleGAN في مجموعة بيانات CelebA-HQ بدقة 1024، دون الحاجة إلى استراتيجيات تدريب معقدة، ويحقق أداءً مماثلًا لـ StyleGAN على مجموعة بيانات FFHQ-1024، مما يُثبت الإمكانات الكبيرة للترانسفورمرات في مجال توليد الصور عالية الدقة. سيتم إتاحة الكود والنماذج على الرابط: https://github.com/microsoft/StyleSwin.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Bowen Zhang Shuyang Gu Bo Zhang Jianmin Bao Dong Chen Fang Wen Yong Wang Baining Guo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Bowen Zhang Shuyang Gu Bo Zhang Jianmin Bao Dong Chen Fang Wen Yong Wang Baining Guo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Bowen Zhang Shuyang Gu Bo Zhang Jianmin Bao Dong Chen Fang Wen Yong Wang Baining Guo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

StyleSwin: GAN مبني على Transformer لإنشاء صور عالية الدقة

Bowen Zhang Shuyang Gu Bo Zhang Jianmin Bao Dong Chen Fang Wen Yong Wang Baining Guo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

StyleSwin: GAN مبني على Transformer لإنشاء صور عالية الدقة

Bowen Zhang Shuyang Gu Bo Zhang Jianmin Bao Dong Chen Fang Wen Yong Wang Baining Guo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

StyleSwin: GAN مبني على Transformer لإنشاء صور عالية الدقة

Bowen Zhang Shuyang Gu Bo Zhang Jianmin Bao Dong Chen Fang Wen Yong Wang Baining Guo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters