Command Palette
Search for a command to run...
نماذج التشتت القابلة للتوسع باستخدام المحولات
نماذج التشتت القابلة للتوسع باستخدام المحولات
William Peebles Saining Xie
الملخص
نستعرض فئة جديدة من نماذج الانتشار المستندة إلى معمارية الترانسفورمر. نُدرّب نماذج انتشار مختبئة للصور، ونستبدل الهيكل الأساسي الشائع المستخدم (U-Net) بترانسفورمر يعمل على كتل مختبئة. ونحلل قابلية التوسع لنموذجنا، المعروف بـ DiTs (Diffusion Transformers)، من خلال تحليل تعقيد عملية التمرير الأمامي المقاس بـ Gflops. ونجد أن نماذج DiTs ذات القيمة الأعلى في Gflops — من خلال زيادة عمق أو عرض الترانسفورمر أو زيادة عدد الرموز المدخلة — تُظهر دائمًا قيمًا أقل لـ FID. وبالإضافة إلى خصائص التوسع الجيدة، فإن أكبر نماذج DiT-XL/2 لدينا تتفوق على جميع النماذج السابقة في معايير ImageNet بشروط التصنيف والصور بحجم 512x512 و256x256، وتُحقق أفضل قيمة محققة حتى الآن لـ FID وهي 2.27 في الحالة الثانية.