HyperAIHyperAI

Command Palette

Search for a command to run...

محاذاة التمثيل للإكمال: تدريب نماذج التحويل (Diffusion Transformers) أسهل مما تظن

الملخص

أظهرت دراسات حديثة أن عملية إزالة الضوضاء في نماذج التشتت (التي تُولِّد) يمكن أن تُنتج تمثيلات ذات معنى (تمييزية) داخل النموذج، على الرغم من أن جودة هذه التمثيلات لا تزال تُقلّ عن تلك التي تُتعلَّم باستخدام أساليب التعلم التلقائي الحديثة. ونُقدّم رأينا بأن أحد العوائق الرئيسية في تدريب نماذج التشتت الكبيرة الحجم للإطلاق يكمن في التعلُّم الفعّال لهذه التمثيلات. علاوةً على ذلك، يمكن تبسيط عملية التدريب من خلال دمج تمثيلات بصرية خارجية عالية الجودة، بدلاً من الاعتماد فقط على نماذج التشتت لتعلم هذه التمثيلات بشكل مستقل. ونُجري هذه الدراسة من خلال تقديم تسوية بسيطة تُسمى "محاذاة التمثيل" (REPA)، والتي تُحاذا التصويرات المُخرَجة من الحالات المخفية للإدخال المشوَّش في شبكات إزالة الضوضاء مع تمثيلات الصور النظيفة المستمدة من مُشفِّرات بصرية خارجية مُدرّبة مسبقًا. وأظهرت النتائج نتائج مُذهلة: فاستراتيجيتنا البسيطة تُحقّق تحسينات كبيرة في كفاءة التدريب وجودة الإطلاق عند تطبيقها على نماذج التشتت والتحويلات القائمة على التدفق الشهيرة، مثل DiTs وSiTs. على سبيل المثال، يمكن لطرقنا تسريع تدريب SiT بمقدار أكثر من 17.5 مرة، مع تحقيق أداء يُعادل أداء نموذج SiT-XL المدرّب على 7 ملايين خطوة في أقل من 400 ألف خطوة (دون استخدام التوجيه الحر من الفئة). وفيما يتعلق بجودة الإطلاق النهائية، حققنا نتائج رائدة في مجالها بقيمة FID = 1.42 باستخدام التوجيه الحر من الفئة مع فاصل التوجيه.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp