
نُقدِّم GANformer، نوعًا جديدًا وفعالًا من نموذج الترانسفورمر، ونستكشف استخدامه في مهمة النمذجة البصرية التوليدية. يعتمد الشبكة على هيكل ثنائي (Bipartite) يُمكِّن من التفاعلات على مدى بعيد عبر الصورة، مع الحفاظ على كفاءة حسابية خطية، ما يسمح بتوسيعها بسهولة إلى توليد صور عالية الدقة. تقوم الشبكة بتحديث المعلومات بشكل تكراري بين مجموعة من المتغيرات الخفية والسمات البصرية المتغيرة، والعكس، لدعم تحسين كل منهما بناءً على الآخر، وتشجيع ظهور تمثيلات تراكيبية للأشياء والمشاهد. على عكس البنية التقليدية لـ Transformer، تستخدم GANformer تكاملًا ضربيًا (Multiplicative Integration) يسمح بتعديل مرنة تعتمد على المناطق، وبالتالي يمكن اعتبارها تعميمًا للشبكة الناجحة StyleGAN. نُظهر قوة النموذج وثباته من خلال تقييم دقيق على مجموعة متنوعة من المجموعات البيانات، من البيئات الافتراضية متعددة الكائنات إلى مشاهد داخلية وخارجية حقيقية غنية، حيث تُظهر النتائج تفوقًا على أحدث النماذج من حيث جودة الصور والتنوع، مع تسريع في التعلم وكفاءة أعلى في استخدام البيانات. تقدم التجارب الكمية والكيفية إضافيًا رؤى حول العمليات الداخلية للنموذج، مُظهرة تحسينًا في القابلية للتفسير وانفصالًا أقوى، مما يُبرز فوائد وفعالية النهج المُقترح. يمكن الوصول إلى تنفيذ النموذج عبر الرابط: https://github.com/dorarad/gansformer.