HyperAIHyperAI
منذ 17 أيام

نماذج الاتساق المقطوعة

Sangyun Lee, Yilun Xu, Tomas Geffner, Giulia Fanti, Karsten Kreis, Arash Vahdat, Weili Nie
نماذج الاتساق المقطوعة
الملخص

تم مؤخرًا تقديم النماذج الموحدة (Consistency models) لتسريع عملية العينة من النماذج التبادلية (diffusion models) من خلال التنبؤ مباشرةً بالحل (أي البيانات) الخاص بمعادلة التدفق الاحتمالي (PF ODE) من الضوضاء الابتدائية. ومع ذلك، يتطلب تدريب النماذج الموحدة تعلُّم خريطة جميع النقاط الوسيطة على طول مسارات معادلة التدفق الاحتمالي إلى نقاطها النهائية المقابلة. هذه المهمة أصعب بكثير من الهدف النهائي للإنتاج في خطوة واحدة، والذي يقتصر فقط على خريطة الضوضاء إلى البيانات في معادلة التدفق الاحتمالي. وجدنا تجريبيًا أن هذا النموذج التدريبي يحد من أداء النماذج الموحدة في الإنتاج في خطوة واحدة. لحل هذه المشكلة، قمنا بتوسيع تدريب النموذج الموحد إلى مدى زمني مقطوع (truncated time range)، مما يسمح للنموذج بتجاهل مهام إزالة الضوضاء في المراحل المبكرة وتركيز قدرته على عملية الإنتاج. واقترحنا صيغة جديدة لدالة التوافق (consistency function) وعملية تدريب مزدوجة الطور تمنع التدريب على المدى الزمني المقطوع من الانهيار إلى حل تافه. أظهرت التجارب على مجموعتي بيانات CIFAR-10 وImageNet بحجم $64\times64$ أن طريقتنا تحقق أداءً أفضل في مؤشرات FID للإنتاج في خطوة واحدة وخطوتين مقارنةً بالنماذج الموحدة الرائدة مثل iCT-deep، مع استخدام شبكات أصغر بنسبة أكثر من 2×. صفحة المشروع: https://truncated-cm.github.io/

نماذج الاتساق المقطوعة | أحدث الأوراق البحثية | HyperAI