HyperAIHyperAI
منذ 17 أيام

نماذج المسار المتسق: تعلّم مسار معادلة التدفق الاحتمالي لنموذج التفتيت

Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yutong He, Yuki Mitsufuji, Stefano Ermon
نماذج المسار المتسق: تعلّم مسار معادلة التدفق الاحتمالي لنموذج التفتيت
الملخص

نماذج الاتساق (CM) (Song et al., 2023) تسرّع عينات نماذج التفتيت القائمة على التقييم (score-based diffusion models) على حساب جودة العينات، لكنها لا تقدم طريقة طبيعية لموازنة الجودة مقابل السرعة. وللتغلب على هذه القيود، نقترح نموذج المسار المتماسك (CTM)، وهو تعميم يشمل نماذج CM والنماذج القائمة على التقييم كحالات خاصة. يتم تدريب شبكة عصبية واحدة في CTM يمكنها — في عملية تمرير واحدة — إنتاج التقييمات (أي، التدرجات الخاصة بـ log-density)، وتمكّن من التنقل غير المحدود بين أي زمنين ابتدائي ونهائي على طول معادلة التفتيت العادية (ODE) لتدفق الاحتمالات في عملية التفتيت. يتيح CTM دمجًا فعّالًا بين التدريب العدواني ووظيفة فقدان مطابقة التقييم للتخلص من الضوضاء، مما يعزز الأداء ويحقق أدنى مستويات لمؤشر FID (FID) في عينات نموذج التفتيت ذات الخطوة الواحدة على مجموعة CIFAR-10 (FID 1.73) وعلى مجموعة ImageNet بحلّة 64×64 (FID 1.92). كما يتيح CTM عائلة جديدة من أساليب الاستخلاص، سواء كانت محددة أو عشوائية، تتضمن قفزات طويلة على طول مسارات الحلول الخاصة بـ ODE. ويُحسّن CTM باستمرار جودة العينات مع زيادة الميزانية الحسابية، ويتجنب الانهيار الذي يظهر في نماذج CM. علاوة على ذلك، على عكس CM، فإن وصول CTM إلى دالة التقييم يمكنه تسهيل تبني الأساليب المثبتة لإنشاء متحكم به أو مشروط من مجتمع التفتيت. كما يتيح هذا الوصول حساب الاحتمال (likelihood). يمكن الوصول إلى الكود من خلال الرابط: https://github.com/sony/ctm.