Simpler Diffusion (SiD2): 1.5 FID على ImageNet512 باستخدام التمايز في فضاء البكسل

أصبحت نماذج التشتت الخفي (Latent Diffusion Models) الخيار الشائع لتوسيع نماذج التشتت بهدف إنتاج صور عالية الدقة. مقارنة بالنماذج التي تعمل في فضاء البكسل (pixel-space) والتي تُدرَّب بشكل منتهٍ (end-to-end)، يُنظر إلى النماذج الخفية على أنها أكثر كفاءة وتُنتج جودة صورة أعلى عند الدقة العالية. وفي هذا العمل، نتحدى هذه المفاهيم، ونُظهر أن النماذج في فضاء البكسل يمكن أن تكون منافسة قوية للنماذج الخفية من حيث الجودة والكفاءة، حيث تحقق 1.5 في مؤشر FID على ImageNet512، ونتائج قياسية جديدة (SOTA) على ImageNet128 وImageNet256 وKinetics600.نقدّم وصفة بسيطة لتوسيع نماذج التشتت في فضاء البكسل بشكل منتهٍ إلى دقة عالية. أولاً: استخدام وزن الخسارة باستخدام الدالة التوسيعية (sigmoid loss-weighting) (Kingma & Gao, 2023) مع القيم المحددة لمعاملات النموذج. ثانيًا: استخدام معمارية مبسطة وفعّالة من حيث استخدام الذاكرة، مع تقليل عدد الاتصالات الجانبية (skip-connections). ثالثًا: توسيع النموذج بحيث يُفضّل معالجة الصورة بدقة عالية باستخدام عدد أقل من المعاملات، بدلًا من استخدام عدد أكبر من المعاملات عند دقة منخفضة. وبدمج هذه العناصر مع فترات التوجيه (guidance intervals)، نحصل على عائلة من نماذج التشتت في فضاء البكسل نسمّيها "Simpler Diffusion" (SiD2).