HyperAIHyperAI
منذ 11 أيام

MaskBit: إنشاء صور بدون تضمين من خلال رموز البت

Mark Weber, Lijun Yu, Qihang Yu, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
MaskBit: إنشاء صور بدون تضمين من خلال رموز البت
الملخص

أصبحت نماذج المحولات المقنعة لإنشاء الصور بشروط فئات تُعد بديلاً جذاباً للنماذج التبادلية. وعادةً ما تتكون هذه الإطارات من مرحلتين: نموذج VQGAN الأولي لتحويل الفضاء اللاتيني إلى الفضاء الصوري، ثم نموذج محول لاحق لإنشاء الصور داخل الفضاء اللاتيني. تُقدّم هذه الإطارات مسارات واعدة لتصنيع الصور. في هذه الدراسة، نقدّم مساهمتين رئيسيتين: أولاً، دراسة تجريبية ونظامية لـ VQGANs، أفضت إلى تطوير نموذج VQGAN حديث. ثانيًا، شبكة إنشاء جديدة لا تعتمد على التضمينات، تعمل مباشرة على رموز ثنائية (bit tokens)—تمثيل ثنائي كمي للرموز يحتوي على معاني غنية. تُزوّد المساهمة الأولى بنموذج VQGAN شفاف، قابل للتكرار، وعالي الأداء، مما يعزز إمكانية الوصول ويعادل أداء أحدث الطرق المتطورة، مع كشف تفاصيل لم تُكشف من قبل. أما المساهمة الثانية، فتُظهر أن إنشاء الصور دون استخدام التضمينات باستخدام رموز ثنائية يحقق أفضل أداء مُسجّل حتى الآن، بقيمة FID تبلغ 1.52 على معيار ImageNet بحجم 256x256، مع نموذج مولد صغير يضم 305 مليون معلمة فقط.

MaskBit: إنشاء صور بدون تضمين من خلال رموز البت | أحدث الأوراق البحثية | HyperAI