نموذج تمايز كمّي متجهي لتصنيع الصور من النص

نُقدِّم نموذج التمايز الكمي المتجهي (VQ-Diffusion) لإنشاء الصور من النص. يعتمد هذا النهج على مُشفِّر تلقائي تكاملي كمي متجهي (VQ-VAE)، حيث يتم نمذجة الفضاء المخفي باستخدام نسخة مشروطة من نموذج الاحتمالات التمايزية للتمايز (DDPM)، الذي تم تطويره حديثًا. وجدنا أن هذا النهج في الفضاء المخفي يُعد مناسبًا جدًا لمهمات إنشاء الصور من النص، لأنه لا يُقلل فقط من التحيز الاتجاهي الواحد الذي يُعاني منه النماذج الحالية، بل يسمح لنا أيضًا بدمج استراتيجية التمايز بالقناع والاستبدال (mask-and-replace diffusion) لتجنب تراكم الأخطاء، وهي مشكلة خطيرة في النماذج الحالية. تُظهر تجاربنا أن نموذج VQ-Diffusion يُنتج نتائج إنشاء صور من نص بشكل ملحوظ أفضل مقارنةً بالنماذج التلقائية التسلسلية (AR) التقليدية التي تمتلك عددًا مماثلًا من المعلمات. وبالمقارنة مع الطرق السابقة القائمة على الشبكات التوليديّة التناقضية (GAN)، يمكن لنموذج VQ-Diffusion التعامل مع مشاهد أكثر تعقيدًا وتحسين جودة الصور المُولَّدة بشكل كبير. وأخيرًا، نُظهر أن حساب إنشاء الصور في نهجنا يمكن جعله عالي الكفاءة من خلال إعادة التمثيل (reparameterization). ففي النماذج التسلسلية التقليدية، يزداد وقت إنشاء الصور من النص بشكل خطي مع دقة الصورة الناتجة، مما يجعل العملية طويلة جدًا حتى بالنسبة للصور ذات الحجم العادي. أما نموذج VQ-Diffusion، فيسمح لنا بتحقيق توازن أفضل بين الجودة والسرعة. وتشير تجاربنا إلى أن نموذج VQ-Diffusion مع إعادة التمثيل يكون أسرع بـ 15 مرة مقارنةً بالطرق التسلسلية التقليدية، مع تحقيق جودة صورة أفضل.