DiffuseVAE: توليد فعّال وقابل للتحكم وعالي الدقة من مسافات منخفضة الأبعاد

أظهرت نماذج الاحتمالات التبادلية (Diffusion probabilistic models) نتائج متميزة على عدة معايير تنافسية لإنشاء الصور، لكنها تعاني من غياب فضاء مُوَضَّع منخفض الأبعاد قابل للتفسير، كما أنها بطيئة في عملية الإنشاء. من ناحية أخرى، تمتلك نماذج التشفير التلقائي التبايني القياسي (Variational Autoencoders - VAEs) عادةً فضاء مُوَضَّع منخفض الأبعاد، لكنها تُظهر جودة عينات ضعيفة. نقدم "DiffuseVAE"، إطارًا توليديًا جديدًا يدمج VAE ضمن إطار نموذج التبادل، ويستفيد من هذا الدمج لتصميم مُعاملات شرطية مبتكرة لنماذج التبادل. نُظهر أن النموذج الناتج يزوّد نماذج التبادل برمز مُوَضَّع منخفض الأبعاد مستمد من VAE يمكن استخدامه في مهام لاحقة مثل التوليد القابل للتحكم. كما يُحسّن هذا الأسلوب من توازن السرعة مقابل الجودة مقارنة بالنماذج القياسية غير الشرطية DDPM/DDIM (مثلاً، تحسن في مؤشر FID من 34.36 إلى 16.47 باستخدام نموذج DDIM القياسي على معيار CelebA-HQ-128 مع 10 خطوات عكسية فقط)، دون تدريب صريح لتحقيق هذا الهدف. علاوةً على ذلك، يُظهر النموذج المُقترح جودة توليد تُعادل أفضل النماذج الحالية على معايير إنشاء الصور القياسية مثل CIFAR-10 وCelebA-64، مع تفوقه على معظم الطرق القائمة على VAE. وأخيرًا، نُظهر أن الأسلوب المقترح يتمتع بقدرة تعميم طبيعية على أنواع مختلفة من الضوضاء في إشارة التحديد الشرطي. ولضمان إعادة الإنتاج، فإن الكود المصدري متوفر للجمهور عبر الرابط: https://github.com/kpandey008/DiffuseVAE.