NVAE: متعدد الطبقات العميق للتحفيز التلقائي التغيري

تشمل الأطر المتنافسة القائمة على الاحتمال (likelihood-based) للتعلم التوليدي العميق نماذج التدفق الطبيعي (normalizing flows)، والنماذج ذات التوليد التلقائي (autoregressive models)، ونماذج التشفير التلقائي التبايني (VAEs)، والنماذج العميقة القائمة على الطاقة (deep energy-based models). ومن بين هذه النماذج، يتمتع VAE بقدرة على العينة السريعة والقابلة للحساب، بالإضافة إلى شبكات التشفير التي يسهل الوصول إليها. ومع ذلك، فإن هذه النماذج تُعدّ حالياً متفوقة عليها من حيث الأداء من قبل نماذج أخرى مثل التدفقات الطبيعية والنماذج ذات التوليد التلقائي. بينما تتركز معظم الأبحاث حول VAE على التحديات الإحصائية، نستكشف الاتجاه المتعامد المتمثل في تصميم دقيق للهياكل العصبية لنموذج VAE الهرمي. نقترح نموذج VAE الجديد (NVAE)، وهو نموذج VAE عميق هرمي مصمم لإنشاء الصور باستخدام التحويلات التباديلية العميقة (depth-wise separable convolutions) وتحسين التباين (batch normalization). ويتميز NVAE بتمثيل متبقي (residual parameterization) للتوزيع الطبيعي، ويتم تثبيت عملية تدريبه من خلال الت régularisation الطيفية (spectral regularization). ونُظهر أن NVAE يحقق أفضل النتائج على مستوى الحد الأقصى بين النماذج القائمة على الاحتمال غير التلقائية (non-autoregressive) على مجموعات بيانات MNIST وCIFAR-10 وCelebA 64 وCelebA HQ، كما يوفر معياراً قوياً على مجموعة بيانات FFHQ. على سبيل المثال، على CIFAR-10، يرفع NVAE الحد الأقصى الحالي من 2.98 إلى 2.91 بت لكل بعد، ويُنتج صوراً عالية الجودة على CelebA HQ. إلى أقصى معرفة لدينا، يُعد NVAE أول نموذج VAE ناجح تم تطبيقه على صور طبيعية بحجم يصل إلى 256×256 بكسل. يتوفر الكود المصدري على الرابط: https://github.com/NVlabs/NVAE.