DiffiT: نماذج التحويل البصري التمايزية لتوليد الصور

لقد حققت نماذج الانتشار (Diffusion models) بأدائها القوي في التعبير عن الأنماط وجودة العينات العالية أداءً متميزًا (SOTA) في المجال التوليدي. كما أظهرت نموذج المحول البصري (Vision Transformer - ViT)، الذي يُعد رائدًا في هذا المجال، قدرات نمذجة قوية وقابلية للتوسع، خاصة في المهام المتعلقة بالتعرف على الصور. في هذه الورقة، ندرس فعالية نماذج ViT في التعلم التوليدي القائم على الانتشار، ونُقدِّم نموذجًا جديدًا يُسمى "محول البصرية للانتشار" (Diffusion Vision Transformers - DiffiT). بشكل خاص، نقترح منهجية للتحكم الدقيق في عملية إزالة الضوضاء، ونُقدِّم آلية الانتباه الذاتي متعدد الرؤوس المُعتمدَة على الزمن (Time-dependant Multihead Self Attention - TMSA). أظهر نموذج DiffiT فعالية مذهلة في إنتاج صور عالية الدقة، مع كفاءة متفوقة في استخدام المعلمات. كما قمنا بتطوير نماذج DiffiT في الفضاء المُتخفي (Latent) والفضاء الصوري (Image)، وبيّنا أداءً متميزًا (SOTA) في مجموعة متنوعة من مهام التوليد المشروط بالفئة وغير المشروط، وبمختلف الدقة. حقق نموذج DiffiT في الفضاء المُتخفي سجلًا جديدًا في معيار FID بلغ 1.73 على مجموعة بيانات ImageNet256، مع تقليل بنسبة 19.85% و16.88% في عدد المعلمات مقارنةً بنماذج الانتشار القائمة على المحولات الأخرى مثل MDT وDiT، على التوالي. الكود: https://github.com/NVlabs/DiffiT