منذ 4 أشهر

الملخص

أصبح النمذجة التوليدية الخفية، حيث يقوم مُشفِّر تلقائي مُدرّب مسبقًا بتحويل البكسلات إلى فضاء خفي لعملية الانتشار، الاستراتيجية القياسية لمحولات الانتشار (DiT)؛ ومع ذلك، لم يتطور مكوّن المُشفّر التلقائي بشكل كبير. لا يزال معظم محولات الانتشار تعتمد على مُشفّر VAE الأصلي، مما يُدخل عدة قيود: هياكل خلفية قديمة تُضعف بساطة البنية المعمارية، وفضاءات خفية ذات أبعاد منخفضة تحد من قدرة التخزين المعلوماتي، وتمثيلات ضعيفة ناتجة عن التدريب القائم بالكامل على إعادة البناء، مما يُحد من الجودة التوليدية في النهاية. في هذا العمل، نستعرض بديلًا لاستخدام VAE بدمج مُشفّرات تمثيلية مُدرّبة مسبقًا (مثل DINO، SigLIP، MAE) مع مُفكّكات مدربة، ما نسميه "مُشفّرات التمثيل التلقائية" (RAEs). توفر هذه النماذج إعادة بناء عالية الجودة وفضاءات خفية غنية دلاليًا، مع إمكانية استخدام بنية قابلة للتوسع تعتمد على المحولات. وبما أن هذه الفضاءات الخفية غالبًا ما تكون عالية الأبعاد، فإن التحدي الرئيسي يتمثل في تمكين محولات الانتشار من العمل بكفاءة ضمنها. نحلل مصادر هذه الصعوبة، ونُقدّم حلولًا مبنية على أساس نظري، ونُختبرها تجريبيًا. تُظهر طريقة عملنا تقاربًا أسرع دون الحاجة إلى خسائر تطابق تمثيلي إضافية. وباستخدام نسخة مُعدّلة من DiT مزودة بـ "رأس DDT خفيف الوزن وواسع"، نحقق نتائج قوية في توليد الصور على مجموعة بيانات ImageNet: 1.51 لـ FID عند دقة 256×256 (بدون توجيه)، و1.13 عند كل من 256×256 و512×512 (مع التوجيه). تُظهر RAE مزايا واضحة، ويجب أن تصبح الخيار الافتراضي الجديد لتدريب محولات الانتشار.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار