دور-أو-إعادة-الصياغة: توليد صور فعّال باستخدام نموذج RQ-Transformer السياقي

رغم النتائج الواعدة التي حققتها النماذج ذات التوليد التلقائي (autoregressive models) في توليد الصور، إلا أن عملية التوليد ذات الاتجاه الواحد تمنع الصور الناتجة من التعبير الكامل عن السياقات العالمية. ولحل هذه المشكلة، نقترح إطارًا فعّالًا لتوليد الصور يُسمى "المسودة والتعديل" (Draft-and-Revise) مع استخدام محول RQ-Transformer القائم على السياق، بهدف أخذ السياقات العالمية بعين الاعتبار أثناء عملية التوليد. وباعتباره نموذجًا عامًا لـ VQ-VAE، يُمثّل RQ-VAE صورة عالية الدقة كسلسلة من كتل الرموز المنفصلة. وبعد أن تُخفي عشوائيًا كتل الرموز في السلسلة، يُدرّب محول RQ-Transformer القائم على السياق على ملء الكتل المخفية استنادًا إلى السياقات غير المخفية في الصورة. ثم يستخدم محول RQ-Transformer الترميز المزدوج الطور "المسودة والتعديل" (Draft-and-Revise) لتوليد الصورة، مع الاستفادة من السياقات العالمية أثناء التوليد. وبشكل خاص، في مرحلة المسودة، يركّز نموذجنا أولًا على إنتاج صور متنوعة، رغم جودتها المنخفضة نسبيًا. ثم، في مرحلة التعديل، يُحسّن النموذج جودة الصور تدريجيًا، مع الحفاظ على السياقات العالمية للصور المولدة. وفي التجارب، حقق نهجنا نتائج متقدمة على مستوى التقنيات الحالية في توليد الصور الشرطية. كما تم التحقق من أن خوارزمية الترميز "المسودة والتعديل" قادرة على تحقيق أداء عالٍ من خلال التحكم الفعّال في التوازن بين الجودة والتنوع في توليد الصور.