MaskBit: إنشاء صور بدون تضمين من خلال رموز البت

أصبحت نماذج المحولات المقنعة لإنشاء الصور بشروط فئات تُعد بديلاً جذاباً للنماذج التبادلية. وعادةً ما تتكون هذه الإطارات من مرحلتين: نموذج VQGAN الأولي لتحويل الفضاء اللاتيني إلى الفضاء الصوري، ثم نموذج محول لاحق لإنشاء الصور داخل الفضاء اللاتيني. تُقدّم هذه الإطارات مسارات واعدة لتصنيع الصور. في هذه الدراسة، نقدّم مساهمتين رئيسيتين: أولاً، دراسة تجريبية ونظامية لـ VQGANs، أفضت إلى تطوير نموذج VQGAN حديث. ثانيًا، شبكة إنشاء جديدة لا تعتمد على التضمينات، تعمل مباشرة على رموز ثنائية (bit tokens)—تمثيل ثنائي كمي للرموز يحتوي على معاني غنية. تُزوّد المساهمة الأولى بنموذج VQGAN شفاف، قابل للتكرار، وعالي الأداء، مما يعزز إمكانية الوصول ويعادل أداء أحدث الطرق المتطورة، مع كشف تفاصيل لم تُكشف من قبل. أما المساهمة الثانية، فتُظهر أن إنشاء الصور دون استخدام التضمينات باستخدام رموز ثنائية يحقق أفضل أداء مُسجّل حتى الآن، بقيمة FID تبلغ 1.52 على معيار ImageNet بحجم 256x256، مع نموذج مولد صغير يضم 305 مليون معلمة فقط.