منذ 6 أشهر

الملخص

في مجال كميّة الصور، مثل نموذج VQGAN، يتم تشفير الصور إلى رموز منفصلة مستمدة من دفتر رموز (codebook) بحجم مسبق تحديده. أظهرت التطورات الحديثة، خاصةً مع نموذج LLAMA 3، أن توسيع حجم دفتر الرموز يُحسّن بشكل كبير أداء النموذج. ومع ذلك، ما زالت نماذج VQGAN ومشتقاتها، مثل VQGAN-FC (الرموز المُفكَّكة) وVQGAN-EMA، تواجه صعوبات تتعلق بتوسيع حجم دفتر الرموز وتحسين استغلاله. على سبيل المثال، يقتصر VQGAN-FC على تعلُّم دفتر رموز بحجم أقصاه 16,384، مع معدل استغلال معتاد أقل من 12٪ على مجموعة بيانات ImageNet. في هذا العمل، نقترح نموذجًا جديدًا للكميّة الصورية يُسمّى VQGAN-LC (دفتر رموز كبير)، الذي يوسع حجم دفتر الرموز إلى 100,000، ويحقق معدل استغلال يتجاوز 99٪. على عكس الأساليب السابقة التي تُحسّن كل إدخال في دفتر الرموز بشكل منفصل، يبدأ نهجنا بتصميم دفتر رموز مكوّن من 100,000 ميزة تم استخلاصها بواسطة مُشفّر بصري مُدرّب مسبقًا. ثم تتركز عملية التحسين على تدريب "مُعَرّف" (projector) يُنسّق دفتر الرموز بأكمله مع توزيعات الميزات الناتجة عن المُشفّر في إطار نموذج VQGAN-LC. نُظهر تفوق أداء نموذجنا مقارنةً بمنافسيه في مجموعة متنوعة من المهام، بما في ذلك إعادة بناء الصور، تصنيف الصور، توليد الصور التلقائي (auto-regressive) باستخدام نموذج GPT، وإنشاء الصور باستخدام نماذج توليدية تعتمد على التشتت (diffusion) أو النماذج القائمة على التدفق (flow-based). يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/zh460045050/VQGAN-LC.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Lei Zhu Fangyun Wei Yanye Lu Dong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Lei Zhu Fangyun Wei Yanye Lu Dong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Lei Zhu Fangyun Wei Yanye Lu Dong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

توسيع حجم المخطط الرمزي لـ VQGAN إلى 100,000 مع معدل استخدام 99%

Lei Zhu Fangyun Wei Yanye Lu Dong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

توسيع حجم المخطط الرمزي لـ VQGAN إلى 100,000 مع معدل استخدام 99%

Lei Zhu Fangyun Wei Yanye Lu Dong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

توسيع حجم المخطط الرمزي لـ VQGAN إلى 100,000 مع معدل استخدام 99%

Lei Zhu Fangyun Wei Yanye Lu Dong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters