HyperAIHyperAI

Command Palette

Search for a command to run...

MaskBit: إنشاء صور بدون تضمين من خلال رموز البت

Mark Weber Lijun Yu Qihang Yu Xueqing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen

الملخص

أصبحت نماذج المحولات المقنعة لإنشاء الصور بشروط فئات تُعد بديلاً جذاباً للنماذج التبادلية. وعادةً ما تتكون هذه الإطارات من مرحلتين: نموذج VQGAN الأولي لتحويل الفضاء اللاتيني إلى الفضاء الصوري، ثم نموذج محول لاحق لإنشاء الصور داخل الفضاء اللاتيني. تُقدّم هذه الإطارات مسارات واعدة لتصنيع الصور. في هذه الدراسة، نقدّم مساهمتين رئيسيتين: أولاً، دراسة تجريبية ونظامية لـ VQGANs، أفضت إلى تطوير نموذج VQGAN حديث. ثانيًا، شبكة إنشاء جديدة لا تعتمد على التضمينات، تعمل مباشرة على رموز ثنائية (bit tokens)—تمثيل ثنائي كمي للرموز يحتوي على معاني غنية. تُزوّد المساهمة الأولى بنموذج VQGAN شفاف، قابل للتكرار، وعالي الأداء، مما يعزز إمكانية الوصول ويعادل أداء أحدث الطرق المتطورة، مع كشف تفاصيل لم تُكشف من قبل. أما المساهمة الثانية، فتُظهر أن إنشاء الصور دون استخدام التضمينات باستخدام رموز ثنائية يحقق أفضل أداء مُسجّل حتى الآن، بقيمة FID تبلغ 1.52 على معيار ImageNet بحجم 256x256، مع نموذج مولد صغير يضم 305 مليون معلمة فقط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp