HyperAIHyperAI
منذ 11 أيام

الانتشار البسيط: الانتشار من الطرف إلى الطرف لصور عالية الدقة

Emiel Hoogeboom, Jonathan Heek, Tim Salimans
الانتشار البسيط: الانتشار من الطرف إلى الطرف لصور عالية الدقة
الملخص

في الوقت الراهن، يُعد تطبيق نماذج الانتشار (diffusion models) في الفضاء البكسيلي (pixel space) للصور عالية الدقة أمرًا صعبًا. بدلًا من ذلك، تتركز الطرق الحالية على الانتشار في فضاءات ذات أبعاد أقل (الانتشار الخفي - latent diffusion)، أو تعتمد على مستويات متعددة من التوليد عالية الدقة تُعرف بـ "السلاسل المتسلسلة" (cascades). وتشكل هذه الطرق عيبًا متمثلًا في إضافة تعقيد إضافي إلى هيكل نموذج الانتشار.يهدف هذا البحث إلى تحسين نموذج الانتشار لإزالة الضوضاء في الصور عالية الدقة، مع الحفاظ على بساطة النموذج قدر الإمكان. يدور البحث حول السؤال الرئيسي التالي: كيف يمكن تدريب نموذج انتشار لإزالة الضوضاء قياسي على صور عالية الدقة، مع تحقيق أداء يُقارن بأداء الطرق البديلة؟تشمل النتائج الأربعة الرئيسية ما يلي:1) يجب تعديل جدول الضوضاء (noise schedule) ليناسب الصور عالية الدقة؛2) يكفي أن يتم توسيع جزء محدد من البنية المعمارية؛3) ينبغي إدخال تقنية "الإسقاط" (dropout) في مواقع محددة داخل البنية المعمارية؛4) يُعد التناقص (downsampling) استراتيجية فعالة لتجنب ظهور خرائط ميزات عالية الدقة. بدمج هذه التقنيات البسيطة ولكنها فعّالة، نحقق أداءً متفوقًا على مستوى التقنيات الحالية في مجال توليد الصور باستخدام نماذج الانتشار، دون الحاجة إلى استخدام عوامل تعديل أثناء الاستخراج (sampling modifiers)، على مجموعة بيانات ImageNet.