تخفيف التشوه في توليد الصور من خلال نماذج التبديد متعددة الدقة

تُقدّم هذه الورقة تحسينات مبتكرة على نماذج التشتت من خلال دمج شبكة متعددة الدقة جديدة وطريقة تطبيع الطبقات المُعتمدة على الزمن. وقد اكتسبت نماذج التشتت شهرةً واسعة بفضل فعاليتها في توليد صور عالية الدقة. في حين تعتمد الطرق التقليدية على هياكل U-Net القائمة على التحويلات التلافيفية (convolutional U-Net)، أظهرت التصاميم الحديثة القائمة على المُحولات (Transformer) أداءً متفوقًا وقابلية للتوسع. ومع ذلك، تواجه هياكل المُحولات، التي تقوم بتقسيم البيانات المدخلة إلى "قطع" (patchification)، تنازلاً بين الدقة البصرية وتعقيد الحسابات، ناتجًا عن الطبيعة التربيعية لعمليات الانتباه الذاتي بالنسبة لطول المُدخلات (التيكنات). فبينما تُحسّن أحجام القطع الأكبر من حيث كفاءة الحساب، فإنها تفشل في التقاط التفاصيل البصرية الدقيقة، مما يؤدي إلى تشوهات في الصور. ولحل هذه التحديات، نقترح تعزيز نموذج التشتت بشبكة متعددة الدقة (DiMR)، وهي إطار عمل يُحسّن السمات عبر عدة دقة، ويعزز تدريجيًا التفاصيل من الدقة المنخفضة إلى العالية. بالإضافة إلى ذلك، نقدّم طريقة تطبيع الطبقات المُعتمدة على الزمن (TD-LN)، وهي منهجية فعّالة من حيث عدد المعاملات، تُدمج معاملات تعتمد على الزمن ضمن تطبيع الطبقات لدمج معلومات الزمن وتحقيق أداءً متفوقًا. وقد أثبتت فعالية منهجنا على معيار توليد صور ImageNet المشروط بالفئة، حيث تفوقت نسخ DiMR-XL على النماذج السابقة من نماذج التشتت، محققةً أرقامًا قياسية جديدة في مؤشر FID بـ 1.70 على صور ImageNet بحجم 256×256 و2.89 على صور 512×512. صفحة المشروع: https://qihao067.github.io/projects/DiMR