HyperAIHyperAI
منذ 17 أيام

StyleNAT: منح كل رأس منظورًا جديدًا

Steven Walton, Ali Hassani, Xingqian Xu, Zhangyang Wang, Humphrey Shi
StyleNAT: منح كل رأس منظورًا جديدًا
الملخص

تمثّل توليد الصور مهمة طالما سُعِي إليها، لكنها تظل تحديًا كبيرًا، كما أن إنجاز هذه المهمة بطريقة فعّالة يشكل صعوبة مشابهة. غالبًا ما يحاول الباحثون إنشاء "مُولِّد واحد يناسب الجميع"، بحيث تكون الفروق في فضاء المعاملات ضئيلة جدًا حتى عند التعامل مع مجموعات بيانات مختلفة جدًا. في هذا العمل، نقدّم إطارًا جديدًا يعتمد على المحولات (Transformer)، يُسمّى StyleNAT، مصممًا لتوليد صور عالية الجودة مع كفاءة ومرنّية متفوّقتين. في قلب نموذجنا، نجد إطارًا مصممًا بعناية يُقسّم رؤوس الانتباه لالتقاط المعلومات المحلية والعالمية، وذلك من خلال استخدام "الانتباه المجاور" (Neighborhood Attention - NA). وبفضل قدرة الرؤوس المختلفة على التركيز على مجالات استقبال متباينة، يمكن للنموذج دمج هذه المعلومات بشكل أفضل، والتكيف بأسلوب مرناً للغاية مع البيانات المتاحة. حقّق StyleNAT أفضل نتيجة مُسجّلة (SOTA) في معيار FID على مجموعة بيانات FFHQ-256 بنتيجة 2.046، متفوّقًا على النماذج السابقة القائمة على التحويلات (مثل StyleGAN-XL) والنماذج القائمة على المحولات (مثل HIT وStyleSwin)، كما سجّل أفضل نتيجة مُسجّلة (SOTA) بين النماذج القائمة على المحولات على FFHQ-1024 بنتيجة FID قدرها 4.174. وتشير هذه النتائج إلى تحسّن بنسبة 6.4% في أداء FFHQ-256 مقارنة بـ StyleGAN-XL، مع تقليل بنسبة 28% في عدد المعاملات، وتحسّن بنسبة 56% في معدل استخلاص العينات (sampling throughput). سيتم إتاحة الشفرة المصدرية والنماذج على منصة GitHub عبر الرابط التالي: https://github.com/SHI-Labs/StyleNAT.

StyleNAT: منح كل رأس منظورًا جديدًا | أحدث الأوراق البحثية | HyperAI