HyperAIHyperAI
منذ 3 أشهر

تحليل وتحسين ديناميكيات التدريب للنماذج التمايزية

Tero Karras, Miika Aittala, Jaakko Lehtinen, Janne Hellsten, Timo Aila, Samuli Laine
تحليل وتحسين ديناميكيات التدريب للنماذج التمايزية
الملخص

تحتل نماذج الانتشار حاليًا المكانة المُهيمنة في مجال توليد الصور القائمة على البيانات، بفضل قدرتها الاستثنائية على التوسع مع مجموعات بيانات ضخمة. في هذه الورقة، نحدد ونصحح عدة أسباب تؤدي إلى تدريب غير متساوٍ وفعّال في بنية نموذج الانتشار الشهير ADM، دون التأثير على هيكلها العام. وبملاحظة التغيرات غير المنضبطة في الحجم، فضلاً عن عدم التوازن في التنشيطات والوزن داخل الشبكة طوال عملية التدريب، نعيد تصميم طبقات الشبكة لضمان الحفاظ على حجم التنشيطات والوزن وتحديثات الوزن من حيث القيمة المتوقعة. ونجد أن تطبيق هذا المبدأ بشكل منهجي يزيل الانحرافات والاختلالات الملاحظة، مما يؤدي إلى تحسين ملحوظ في أداء الشبكة عند نفس المستوى من التعقيد الحسابي. تُحسّن تعديلاتنا السجل السابق لمقاييس FID في توليد صور ImageNet-512 من 2.41 إلى 1.81، وذلك باستخدام عينات سريعة وحتمية.كمساهمة مستقلة، نقدّم طريقة لضبط معلمات المتوسط المتحرك الأسّي (EMA) بعد انتهاء عملية التدريب، أي بشكل ما بعد التدريب. يُتيح هذا التمكّن من ضبط طول EMA بدقة دون الحاجة إلى إجراء عدة عمليات تدريب، ويُكشف عن تفاعلات غير متوقعة بين EMA من جهة، وبنية الشبكة، وطول وقت التدريب، وطريقة التوجيه من جهة أخرى.