HyperAIHyperAI
منذ 17 أيام

النماذج الانتشارية هي مُولِّدات ذات خطوة واحدة ذاتية

Bowen Zheng, Tianming Yang
النماذج الانتشارية هي مُولِّدات ذات خطوة واحدة ذاتية
الملخص

لقد حققت نماذج الانتشار (DMs) نجاحًا كبيرًا في توليد الصور و領域ات أخرى. من خلال العينة الدقيقة عبر المسار المُعرّف بواسطة حلّال SDE/ODE المستند إلى نموذج مُدرّب جيدًا لحساب الدالة الاحتمالية (score model)، يمكن لـ DMs إنتاج نتائج عالية الجودة مميزة. ومع ذلك، غالبًا ما تتطلب هذه العينة الدقيقة عددًا كبيرًا من الخطوات، مما يجعلها مكلفة من حيث الحوسبة. لمعالجة هذه المشكلة، تم اقتراح طرق استخلاص قائمة على الأمثلة (instance-based distillation) لاستخلاص نموذج توليد واحد الخطوة من نموذج انتشار من خلال تمثيل نموذج طالب بسيط لنموذج معلم معقد. ومع ذلك، تُظهر أبحاثنا قيدًا جوهريًا في هذه الطرق: فنموذج المعلم، الذي يحتوي على عدد أكبر من الخطوات وعدد أكبر من المعلمات، يشغل أماكن محلية مختلفة (local minima) مقارنة بنموذج الطالب، مما يؤدي إلى أداء دون المثالية عندما يحاول الطالب تقليد المعلم. لتجنب هذه المشكلة، نقدّم طريقة استخلاص توزيعية جديدة (distributional distillation) تستخدم خسارة توزيعية حصرية (exclusive distributional loss). تفوق هذه الطريقة النتائج المُقدمة من أحدث الطرق (SOTA) مع استهلاك أقل بكثير من الصور التدريبية. بالإضافة إلى ذلك، نُظهر أن طبقات نماذج الانتشار تُفعّل بشكل غير متساوٍ في خطوات زمنية مختلفة، مما يمنحها قدرة متأصلة على توليد الصور في خطوة واحدة. وعند تجميد معظم الطبقات التلافيفية (convolutional layers) في نموذج الانتشار أثناء عملية الاستخلاص التوزيعي، يتمكن النموذج من استغلال هذه القدرة المتأصلة، مما يؤدي إلى تحسينات إضافية في الأداء. تحقق طريقةنا أفضل النتائج المُسجّلة (SOTA) على مجموعة CIFAR-10 (FID 1.54)، وAFHQv2 64x64 (FID 1.23)، وFFHQ 64x64 (FID 0.85)، وImageNet 64x64 (FID 1.16) بفعالية كبيرة. تم الحصول على معظم هذه النتائج باستخدام فقط 5 ملايين صورة تدريبية خلال 6 ساعات على 8 وحدات A100.

النماذج الانتشارية هي مُولِّدات ذات خطوة واحدة ذاتية | أحدث الأوراق البحثية | HyperAI