HyperAIHyperAI
منذ 17 أيام

ترانس جان: يمكن لاثنين من نماذج الترانسفورمر النقية أن يصنعوا جانًا قويًا، ويمكن أن يُمَدَّدَ هذا النموذج

Yifan Jiang, Shiyu Chang, Zhangyang Wang
ترانس جان: يمكن لاثنين من نماذج الترانسفورمر النقية أن يصنعوا جانًا قويًا، ويمكن أن يُمَدَّدَ هذا النموذج
الملخص

لقد أثار الاهتمام المفاجئ المتنامِي في نماذج المحولات (Transformers) إمكانية تحولها إلى نماذج "عامة" قوية للمهام المتعلقة برؤية الحاسوب، مثل التصنيف والكشف والتقسيم. بينما ركزت هذه المحاولات الرئيسية على النماذج التمييزية، نحن نستكشف استخدام المحولات في بعض المهام البصرية الأصعب على الإطلاق، مثل الشبكات التلافيفية المتنافسة (GANs). هدفنا هو إجراء أول دراسة تجريبية لبناء GAN تمامًا خالي من التلافيف (convolutions)، باستخدام فقط هياكل قائمة على المحولات. يتكوّن معمارية GAN الأساسية لدينا، التي تُسمّى TransGAN، من مُولِّد مبني على المحولات وذو كفاءة في استخدام الذاكرة، يزيد تدريجيًا من دقة الميزات، إلى جانب مُميّز متعدد المقياسين لالتقاط السياقات الدلالية والأنسجة منخفضة المستوى في آن واحد. بالإضافة إلى ذلك، نقدّم وحدة جديدة تُسمى الانتباه الشبكي (grid self-attention) لتخفيف عائق الذاكرة، بهدف تمكين توسيع TransGAN لدعم إنشاء صور عالية الدقة. كما طوّرنا وصفة تدريب فريدة تتضمّن سلسلة من التقنيات التي تقلل من مشكلات عدم الاستقرار أثناء التدريب في TransGAN، مثل التكبير العشوائي للبيانات، والتماثل المعدّل، وتمثيل الموضع النسبي. تحقق أفضل معمارية لدينا أداءً تنافسيًا للغاية مقارنةً بأفضل النماذج الحالية من GANs التي تعتمد على التلافيف. وبشكل خاص، حقّقت TransGAN رقماً جديداً لمؤشر Inception يبلغ 10.43 وقيمة FID تبلغ 18.28 على مجموعة STL-10، متفوّقةً على StyleGAN-V2. وفي المهام التي تتطلب دقة أعلى (مثل 256 × 256)، مثل إنشاء صور من CelebA-HQ وLSUN-Church، تستمر TransGAN في إنتاج أمثلة بصرية متنوعة ذات واقعية عالية وتفاصيل نسيجية مذهلة. علاوةً على ذلك، نتعمّق في فهم النماذج القائمة على المحولات في المهام الإنشائية، من خلال تحليل ديناميكيات التدريب وتصورها، لفهم كيف تختلف سلوكها عن النماذج القائمة على التلافيف. يمكن الوصول إلى الكود عبر الرابط: https://github.com/VITA-Group/TransGAN.