HyperAIHyperAI

Command Palette

Search for a command to run...

توسيع حجم المخطط الرمزي لـ VQGAN إلى 100,000 مع معدل استخدام 99%

Lei Zhu Fangyun Wei Yanye Lu Dong Chen

الملخص

في مجال كميّة الصور، مثل نموذج VQGAN، يتم تشفير الصور إلى رموز منفصلة مستمدة من دفتر رموز (codebook) بحجم مسبق تحديده. أظهرت التطورات الحديثة، خاصةً مع نموذج LLAMA 3، أن توسيع حجم دفتر الرموز يُحسّن بشكل كبير أداء النموذج. ومع ذلك، ما زالت نماذج VQGAN ومشتقاتها، مثل VQGAN-FC (الرموز المُفكَّكة) وVQGAN-EMA، تواجه صعوبات تتعلق بتوسيع حجم دفتر الرموز وتحسين استغلاله. على سبيل المثال، يقتصر VQGAN-FC على تعلُّم دفتر رموز بحجم أقصاه 16,384، مع معدل استغلال معتاد أقل من 12٪ على مجموعة بيانات ImageNet. في هذا العمل، نقترح نموذجًا جديدًا للكميّة الصورية يُسمّى VQGAN-LC (دفتر رموز كبير)، الذي يوسع حجم دفتر الرموز إلى 100,000، ويحقق معدل استغلال يتجاوز 99٪. على عكس الأساليب السابقة التي تُحسّن كل إدخال في دفتر الرموز بشكل منفصل، يبدأ نهجنا بتصميم دفتر رموز مكوّن من 100,000 ميزة تم استخلاصها بواسطة مُشفّر بصري مُدرّب مسبقًا. ثم تتركز عملية التحسين على تدريب "مُعَرّف" (projector) يُنسّق دفتر الرموز بأكمله مع توزيعات الميزات الناتجة عن المُشفّر في إطار نموذج VQGAN-LC. نُظهر تفوق أداء نموذجنا مقارنةً بمنافسيه في مجموعة متنوعة من المهام، بما في ذلك إعادة بناء الصور، تصنيف الصور، توليد الصور التلقائي (auto-regressive) باستخدام نموذج GPT، وإنشاء الصور باستخدام نماذج توليدية تعتمد على التشتت (diffusion) أو النماذج القائمة على التدفق (flow-based). يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/zh460045050/VQGAN-LC.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
توسيع حجم المخطط الرمزي لـ VQGAN إلى 100,000 مع معدل استخدام 99% | مستندات | HyperAI