القصّ المُرن: تقنية تدريب عامة لنماذج التباين المستندة إلى الدرجات لتحقيق تقدير دقيق للدرجات

أصبحت النماذج التبادلية (diffusion models) تُظهر أداءً متقدمًا للغاية في مهام توليد الصور، بفضل التطورات الحديثة فيها. ومع ذلك، تشير النتائج التجريبية من الأبحاث السابقة في هذا المجال إلى وجود علاقة عكسية بين أداء تقدير الكثافة (density estimation) وأداء توليد العينات (sample generation). يتناول هذا البحث، بدليل تجريبي وافٍ، أن هذه العلاقة العكسية تحدث لأن تقدير الكثافة يُسهم فيه بشكل كبير الزمن التبادلي الصغير، بينما يعتمد توليد العينات بشكل رئيسي على الزمن التبادلي الكبير. ومع ذلك، فإن تدريب شبكة التقدير (score network) بشكل جيد عبر جميع فترات الزمن التبادلي يكون مُعقدًا، نظرًا لانعدام التوازن الكبير في مقياس الخسارة (loss scale) في كل فترة زمنية تبادلية. ولتحقيق تدريب ناجح، نقدم في هذا العمل تقنية تدريب عامة وقابلة للتطبيق على جميع النماذج التبادلية تُسمى "القطع الناعم" (Soft Truncation)، والتي تحوّل المعلمة الفائقة الثابتة والثابتة (fixed and static truncation hyperparameter) إلى متغير عشوائي (random variable). في التجارب، تمكنت تقنية "القطع الناعم" من تحقيق أداءً من الدرجة الأولى (state-of-the-art) على مجموعات بيانات CIFAR-10 وCelebA وCelebA-HQ بحجم 256x256 وSTL-10.