HyperAIHyperAI

Command Palette

Search for a command to run...

محولات الانتشار مع مُشفّرات التمثيل

Boyang Zheng Nanye Ma Shengbang Tong Saining Xie

الملخص

أصبح النمذجة التوليدية الخفية، حيث يقوم مُشفِّر تلقائي مُدرّب مسبقًا بتحويل البكسلات إلى فضاء خفي لعملية الانتشار، الاستراتيجية القياسية لمحولات الانتشار (DiT)؛ ومع ذلك، لم يتطور مكوّن المُشفّر التلقائي بشكل كبير. لا يزال معظم محولات الانتشار تعتمد على مُشفّر VAE الأصلي، مما يُدخل عدة قيود: هياكل خلفية قديمة تُضعف بساطة البنية المعمارية، وفضاءات خفية ذات أبعاد منخفضة تحد من قدرة التخزين المعلوماتي، وتمثيلات ضعيفة ناتجة عن التدريب القائم بالكامل على إعادة البناء، مما يُحد من الجودة التوليدية في النهاية. في هذا العمل، نستعرض بديلًا لاستخدام VAE بدمج مُشفّرات تمثيلية مُدرّبة مسبقًا (مثل DINO، SigLIP، MAE) مع مُفكّكات مدربة، ما نسميه "مُشفّرات التمثيل التلقائية" (RAEs). توفر هذه النماذج إعادة بناء عالية الجودة وفضاءات خفية غنية دلاليًا، مع إمكانية استخدام بنية قابلة للتوسع تعتمد على المحولات. وبما أن هذه الفضاءات الخفية غالبًا ما تكون عالية الأبعاد، فإن التحدي الرئيسي يتمثل في تمكين محولات الانتشار من العمل بكفاءة ضمنها. نحلل مصادر هذه الصعوبة، ونُقدّم حلولًا مبنية على أساس نظري، ونُختبرها تجريبيًا. تُظهر طريقة عملنا تقاربًا أسرع دون الحاجة إلى خسائر تطابق تمثيلي إضافية. وباستخدام نسخة مُعدّلة من DiT مزودة بـ "رأس DDT خفيف الوزن وواسع"، نحقق نتائج قوية في توليد الصور على مجموعة بيانات ImageNet: 1.51 لـ FID عند دقة 256×256 (بدون توجيه)، و1.13 عند كل من 256×256 و512×512 (مع التوجيه). تُظهر RAE مزايا واضحة، ويجب أن تصبح الخيار الافتراضي الجديد لتدريب محولات الانتشار.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
محولات الانتشار مع مُشفّرات التمثيل | مستندات | HyperAI