HyperAI

الملخص

نستعرض فئة جديدة من نماذج الانتشار المستندة إلى معمارية الترانسفورمر. نُدرّب نماذج انتشار مختبئة للصور، ونستبدل الهيكل الأساسي الشائع المستخدم (U-Net) بترانسفورمر يعمل على كتل مختبئة. ونحلل قابلية التوسع لنموذجنا، المعروف بـ DiTs (Diffusion Transformers)، من خلال تحليل تعقيد عملية التمرير الأمامي المقاس بـ Gflops. ونجد أن نماذج DiTs ذات القيمة الأعلى في Gflops — من خلال زيادة عمق أو عرض الترانسفورمر أو زيادة عدد الرموز المدخلة — تُظهر دائمًا قيمًا أقل لـ FID. وبالإضافة إلى خصائص التوسع الجيدة، فإن أكبر نماذج DiT-XL/2 لدينا تتفوق على جميع النماذج السابقة في معايير ImageNet بشروط التصنيف والصور بحجم 512x512 و256x256، وتُحقق أفضل قيمة محققة حتى الآن لـ FID وهي 2.27 في الحالة الثانية.

الملخص

William Peebles Saining Xie

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

William Peebles Saining Xie

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

William Peebles Saining Xie

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نماذج التشتت القابلة للتوسع باستخدام المحولات

William Peebles Saining Xie

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نماذج التشتت القابلة للتوسع باستخدام المحولات

William Peebles Saining Xie

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نماذج التشتت القابلة للتوسع باستخدام المحولات

William Peebles Saining Xie

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters