HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 21 أيام

محولات الانتشار مع مُشفّرات التمثيل

Boyang Zheng Nanye Ma Shengbang Tong Saining Xie

محولات الانتشار مع مُشفّرات التمثيل

الملخص

أصبح النمذجة التوليدية الخفية، حيث يقوم مُشفِّر تلقائي مُدرّب مسبقًا بتحويل البكسلات إلى فضاء خفي لعملية الانتشار، الاستراتيجية القياسية لمحولات الانتشار (DiT)؛ ومع ذلك، لم يتطور مكوّن المُشفّر التلقائي بشكل كبير. لا يزال معظم محولات الانتشار تعتمد على مُشفّر VAE الأصلي، مما يُدخل عدة قيود: هياكل خلفية قديمة تُضعف بساطة البنية المعمارية، وفضاءات خفية ذات أبعاد منخفضة تحد من قدرة التخزين المعلوماتي، وتمثيلات ضعيفة ناتجة عن التدريب القائم بالكامل على إعادة البناء، مما يُحد من الجودة التوليدية في النهاية. في هذا العمل، نستعرض بديلًا لاستخدام VAE بدمج مُشفّرات تمثيلية مُدرّبة مسبقًا (مثل DINO، SigLIP، MAE) مع مُفكّكات مدربة، ما نسميه "مُشفّرات التمثيل التلقائية" (RAEs). توفر هذه النماذج إعادة بناء عالية الجودة وفضاءات خفية غنية دلاليًا، مع إمكانية استخدام بنية قابلة للتوسع تعتمد على المحولات. وبما أن هذه الفضاءات الخفية غالبًا ما تكون عالية الأبعاد، فإن التحدي الرئيسي يتمثل في تمكين محولات الانتشار من العمل بكفاءة ضمنها. نحلل مصادر هذه الصعوبة، ونُقدّم حلولًا مبنية على أساس نظري، ونُختبرها تجريبيًا. تُظهر طريقة عملنا تقاربًا أسرع دون الحاجة إلى خسائر تطابق تمثيلي إضافية. وباستخدام نسخة مُعدّلة من DiT مزودة بـ "رأس DDT خفيف الوزن وواسع"، نحقق نتائج قوية في توليد الصور على مجموعة بيانات ImageNet: 1.51 لـ FID عند دقة 256×256 (بدون توجيه)، و1.13 عند كل من 256×256 و512×512 (مع التوجيه). تُظهر RAE مزايا واضحة، ويجب أن تصبح الخيار الافتراضي الجديد لتدريب محولات الانتشار.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
محولات الانتشار مع مُشفّرات التمثيل | الأوراق البحثية | HyperAI