HyperAI

توسيع متغيرات التحويل الخاصة بالانتشار بكفاءة عبر μP

Zheng, Chenyu ; Zhang, Xinyu ; Wang, Rongzhen ; Huang, Wei ; Tian, Zhi ; Huang, Weilin ; Zhu, Jun ; Li, Chongxuan
تاريخ النشر: 5/25/2025
توسيع متغيرات التحويل الخاصة بالانتشار بكفاءة عبر μP
الملخص

ظهرت نماذج التحويل التفاضلي (Diffusion Transformers) كأساس للنماذج الجينيراتيفية البصرية، ولكن قابلية توسيعها محدودة بسبب التكلفة العالية لضبط المعلمات الفائقة (Hyperparameters - HP) على نطاق واسع. مؤخرًا، تم اقتراح التمثيل الأقصى لتحديث المعلمات (Maximal Update Parametrization - muP) للنماذج التحويلية التقليدية، مما يسمح بنقل مستقر للمعلمات الفائقة من النماذج الصغيرة إلى الكبيرة في مجال اللغات، ويقلل بشكل كبير من تكاليف الضبط. ومع ذلك، لا يزال غير واضح ما إذا كان يمكن تطبيق muP للنماذج التحويلية التقليدية على النماذج التحويلية التفاضلية، التي تختلف في هيكلها وأهدافها.في هذا العمل، نعمّم muP القياسي على النماذج التحويلية التفاضلية ونقوم بتحقق فعاليتها من خلال تجارب على نطاق واسع. أولاً، نثبت بصرامة أن muP لنماذج التحويل التفاضلية الرئيسية، بما في ذلك DiT، U-ViT، PixArt-alpha، وموديل MMDiT، يتماشى مع muP للنموذج التحويلي التقليدي، مما يتيح التطبيق المباشر للمنهجيات الحالية لـ muP. باستغلال هذا النتيجة، نوضح بشكل منهجي أن DiT-muP يتمتع بنقل مستقر للمعلمات الفائقة. وبشكل ملحوظ، يصل DiT-XL-2-muP مع معدل تعلم متداول إلى سرعة تقارب أسرع بمقدار 2.9 مرة من DiT-XL-2 الأصلي.أخيرًا، نتحقق من فعالية muP في إنشاء الصور من النصوص عن طريق توسيع PixArt-alpha من 0.04 مليار معلمة إلى 0.61 مليار معلمة وموديل MMDiT من 0.18 مليار معلمة إلى 18 مليار معلمة. في كلتا الحالتين، حققت النماذج تحت إطار muP أداءً أفضل من خطوط الأساس الخاصة بها مع الحاجة إلى تكلفة ضبط صغيرة جدًا، حيث بلغت نسبة 5.5% فقط من دورة واحدة للتدريب بالنسبة لـ PixArt-alpha و3% فقط من الاستهلاك بواسطة الخبراء البشر بالنسبة لـ MMDiT-18B. هذه النتائج تؤسس muP كإطار مبدئي وكفء لتوسيع النماذج التحويلية التفاضلية.