النماذج التلقائية المُتعددة المُقلِّدة المُتعددة العوامل

تمثّل شبكات المُشفّر التلقائي (Autoencoder networks) نهجًا غير مُراقب يهدف إلى دمج الخصائص التوليدية والتمثيلية من خلال تعلُّم خريطة مشفرة-مُولِّدة بشكل متزامن. وعلى الرغم من الدراسات المكثفة التي أُجريت عليها، لا تزال المسائل المتعلقة بقدرتها التوليدية مقارنةً بـ GANs، أو بقدرتها على تعلُّم تمثيلات منفصلة (disentangled representations) غير مُحَلَّة بالكامل. نقدّم في هذا العمل مُشفّرًا تلقائيًا يعالج هاتين المشكلتين معًا، ونُسمّيه "مُشفّر التلقائي الخفي المُنافس" (Adversarial Latent Autoencoder - ALAE). وهو معمولية عامة يمكنها الاستفادة من التحسينات الحديثة في إجراءات تدريب GANs. قمنا بتصميم نوعين من المُشفّرات التلقائية: الأول يعتمد على مشفر متعدد الطبقات (MLP encoder)، والثاني يعتمد على مُولِّد StyleGAN، والذي نُسمّيه StyleALAE. وتم التحقق من خصائص الانفصال (disentanglement) في كلا المعموليتين. ونُظهر أن StyleALAE قادر ليس فقط على إنتاج صور وجوه بدقة 1024x1024 بجودة مماثلة لـ StyleGAN، بل أيضًا على إنتاج إعادة تشكيل وتعديلات للوجوه بناءً على صور حقيقية بنفس الدقة. وهذا يجعل ALAE أول مُشفّر تلقائي قادر على المقارنة مع المعموليات القائمة على المُولِّد فقط، بل وبإمكانه تجاوز قدراتها.