HyperAIHyperAI
منذ 17 أيام

محاذاة التمثيل للإكمال: تدريب نماذج التحويل (Diffusion Transformers) أسهل مما تظن

Yu, Sihyun, Kwak, Sangkyung, Jang, Huiwon, Jeong, Jongheon, Huang, Jonathan, Shin, Jinwoo, Xie, Saining
محاذاة التمثيل للإكمال: تدريب نماذج التحويل (Diffusion Transformers) أسهل مما تظن
الملخص

أظهرت دراسات حديثة أن عملية إزالة الضوضاء في نماذج التشتت (التي تُولِّد) يمكن أن تُنتج تمثيلات ذات معنى (تمييزية) داخل النموذج، على الرغم من أن جودة هذه التمثيلات لا تزال تُقلّ عن تلك التي تُتعلَّم باستخدام أساليب التعلم التلقائي الحديثة. ونُقدّم رأينا بأن أحد العوائق الرئيسية في تدريب نماذج التشتت الكبيرة الحجم للإطلاق يكمن في التعلُّم الفعّال لهذه التمثيلات. علاوةً على ذلك، يمكن تبسيط عملية التدريب من خلال دمج تمثيلات بصرية خارجية عالية الجودة، بدلاً من الاعتماد فقط على نماذج التشتت لتعلم هذه التمثيلات بشكل مستقل. ونُجري هذه الدراسة من خلال تقديم تسوية بسيطة تُسمى "محاذاة التمثيل" (REPA)، والتي تُحاذا التصويرات المُخرَجة من الحالات المخفية للإدخال المشوَّش في شبكات إزالة الضوضاء مع تمثيلات الصور النظيفة المستمدة من مُشفِّرات بصرية خارجية مُدرّبة مسبقًا. وأظهرت النتائج نتائج مُذهلة: فاستراتيجيتنا البسيطة تُحقّق تحسينات كبيرة في كفاءة التدريب وجودة الإطلاق عند تطبيقها على نماذج التشتت والتحويلات القائمة على التدفق الشهيرة، مثل DiTs وSiTs. على سبيل المثال، يمكن لطرقنا تسريع تدريب SiT بمقدار أكثر من 17.5 مرة، مع تحقيق أداء يُعادل أداء نموذج SiT-XL المدرّب على 7 ملايين خطوة في أقل من 400 ألف خطوة (دون استخدام التوجيه الحر من الفئة). وفيما يتعلق بجودة الإطلاق النهائية، حققنا نتائج رائدة في مجالها بقيمة FID = 1.42 باستخدام التوجيه الحر من الفئة مع فاصل التوجيه.