HyperAIHyperAI
منذ 17 أيام

MDTv2: ماسكت ديفوسيون ترانسفورمر هو مُولِّد صور قوي

Shanghua Gao, Pan Zhou, Ming-Ming Cheng, Shuicheng Yan
MDTv2: ماسكت ديفوسيون ترانسفورمر هو مُولِّد صور قوي
الملخص

على الرغم من نجاح النماذج الاحتمالية الانفشارية (DPMs) في توليد الصور، نلاحظ أنها غالبًا ما تعاني من ضعف القدرة على التفكير السياقي، مما يمنعها من تعلم العلاقات بين أجزاء الكائنات في الصورة، ما يؤدي إلى عملية تعلم بطيئة. ولحل هذه المشكلة، نقترح نموذجًا يُسمى "مُحَوِّل الانفشار المُغَمَّى" (MDT)، الذي يُقدِّم نموذجًا للتمثيل المُغَمَّى في الفضاء المُخفي، بهدف تعزيز القدرة الصريحة للنماذج الاحتمالية الانفشارية على فهم العلاقات السياقية بين أجزاء الصورة ذات المعنى. أثناء التدريب، يعمل MDT في الفضاء المُخفي من خلال تغطية بعض الرموز (tokens)، ثم يتم تصميم مُحَوِّل انفشاري غير متماثل لتوقع الرموز المُغَمَّاة من الرموز غير المغطاة، مع الحفاظ على عملية التوليد الانفشاري. يمكن لنموذج MDT استرجاع المعلومات الكاملة للصورة من مدخلات سياقية غير كاملة، مما يمكّنه من تعلُّم العلاقات المرتبطة بين الرموز في الصورة. ونُحسِّن مُعَدِّل MDT أكثر من خلال هيكل شبكة ماكرو أكثر كفاءة واستراتيجية تدريب مُحسَّنة، تُسمَّى MDTv2. تُظهر النتائج التجريبية أن MDTv2 تحقق أداءً متفوّقًا في توليد الصور، مثل تحقيق أفضل نتيجة (SOTA) في مؤشر FID بقيمة 1.58 على مجموعة بيانات ImageNet، مع تسريع في عملية التعلم بأكثر من 10 أضعاف مقارنةً بالنموذج السابق SOTA DiT. تم إصدار الشفرة المصدرية على الرابط: https://github.com/sail-sg/MDT.