VAEBM: تآزر بين مُشفّرات التوليد المتغيرة والنموذج القائم على الطاقة

تمكنت النماذج القائمة على الطاقة (EBMs) مؤخرًا من تمثيل التوزيعات المعقدة للصور الصغيرة بشكل ناجح. ومع ذلك، يتطلب أخذ العينات منها تكرارات مكلفة من طريقة مونت كارلو ذات سلسلة ماركوف (MCMC)، والتي تتميّز بسرعة متدنية في الفضاء البكسيلي (البكسل) عالي الأبعاد. على عكس النماذج القائمة على الطاقة، تُولّد النماذج التلقائية التباينية (VAEs) العينات بسرعة، وتمتلك فضاءً خفيًا (latent space) يُمكّن من التنقّل السريع عبر المانيفولد البياناتي. لكن النماذج التلقائية التباينية تميل إلى تعيين كثافة احتمالية عالية في مناطق من فضاء البيانات خارج التوزيع الفعلي للبيانات، وغالبًا ما تفشل في إنتاج صور حادة. في هذا البحث، نقترح نموذج VAEBM، وهو تركيب متكامل بين نموذج VAE ونموذج EBM، يجمع بين أفضل ما تقدمه كلتا النموذجين. يُمكّن VAEBM من التقاط الهيكل العام للنماذج العنقودية (mode structure) للتوزيع البياناتي باستخدام نموذج VAE حديث ومتقدّم، كما يعتمد على مكوّنه EBM لاستبعاد مناطق غير مشابهة للبيانات بشكل صريح، وتحسين جودة العينات الصورية. علاوةً على ذلك، يُمكّن المكوّن VAE في VAEBM من تسريع تحديثات MCMC من خلال إعادة تعيين العمليات في فضاء الـ latent الخاص بنموذج VAE. تُظهر النتائج التجريبية أن VAEBM يتفوّق على أحدث النماذج VAE وEBM من حيث الجودة التوليدية على عدة مجموعات بيانات صور معيارية بفارق كبير. كما يُمكنه إنتاج صور عالية الجودة بحجم يصل إلى 256×256 بكسل باستخدام سلاسل قصيرة من MCMC. ونُظهر أيضًا أن VAEBM يوفر تغطية شاملة للعناقيد (mode coverage) ويؤدي أداءً جيدًا في كشف البيانات غير المدمجة (out-of-distribution detection). يمكن الوصول إلى الكود المصدري عبر الرابط: https://github.com/NVlabs/VAEBM