HyperAIHyperAI
منذ 17 أيام

التعامل مع المعضلة الثلاثية للتعلم التوليدي باستخدام GANs التفريغية التفريعية

Zhisheng Xiao, Karsten Kreis, Arash Vahdat
التعامل مع المعضلة الثلاثية للتعلم التوليدي باستخدام GANs التفريغية التفريعية
الملخص

خلال العقد الماضي، تم تطوير مجموعة واسعة من النماذج التوليدية العميقة. ومع ذلك، غالبًا ما تواجه هذه النماذج صعوبة في معالجة ثلاث متطلبات رئيسية في آنٍ واحد، وهي: جودة العينات العالية، وتغطية الأوضاع (mode coverage)، وسرعة التوليد. نشير إلى التحدي الناتج عن هذه المتطلبات بـ "معضلة التوليد الثلاثية"، حيث تُضحي النماذج الحالية أحيانًا بواحدة من هذه المتطلبات مقابل الأخرى. وبشكل خاص، أظهرت نماذج التمايز التكراري (denoising diffusion models) جودة عالية في العينات وتنوعًا ملحوظًا، لكن عملية التوليد المكلفة لا تزال تمنع تطبيقها في العديد من التطبيقات الواقعية. في هذه الورقة، نجادل بأن البطء في عملية التوليد في هذه النماذج يعود جذريًا إلى افتراض التوزيع الطبيعي (Gaussian assumption) في خطوة إزالة الضوضاء، والذي يُبرر فقط لقيم صغيرة لحجم الخطوة. لتمكين إزالة الضوضاء باستخدام خطوات كبيرة، وبالتالي تقليل العدد الإجمالي للخطوات، نقترح نمذجة توزيع إزالة الضوضاء باستخدام توزيع متعدد الأوضاع معقد. ونقدم نماذج الشبكة التوليدية المتنافسة المُصممة لإزالة الضوضاء (denoising diffusion generative adversarial networks)، أو اختصارًا: denoising diffusion GANs، والتي تُنمذج كل خطوة من خطوات إزالة الضوضاء باستخدام شبكة GAN شرطية متعددة الأوضاع. من خلال تقييمات موسعة، نُظهر أن نماذج denoising diffusion GANs تحقق جودة وتنوعًا في العينات يتنافس مع النماذج التوليدية الأصلية، مع تسريع يصل إلى 2000 مرة على مجموعة بيانات CIFAR-10. مقارنة بالنماذج التقليدية من نوع GAN، تُظهر نماذجنا تغطية أوضاع أفضل وتنوعًا أعلى في العينات. إلى حد معرفتنا، فإن نموذج denoising diffusion GAN هو أول نموذج يقلل من تكلفة التوليد في نماذج التمايز إلى حدٍ يُمكّن من تطبيقها في التطبيقات الواقعية بتكلفة منخفضة. يمكن العثور على صفحة المشروع والكود على الرابط: https://nvlabs.github.io/denoising-diffusion-gan