توسيع حجم المخطط الرمزي لـ VQGAN إلى 100,000 مع معدل استخدام 99%

في مجال كميّة الصور، مثل نموذج VQGAN، يتم تشفير الصور إلى رموز منفصلة مستمدة من دفتر رموز (codebook) بحجم مسبق تحديده. أظهرت التطورات الحديثة، خاصةً مع نموذج LLAMA 3، أن توسيع حجم دفتر الرموز يُحسّن بشكل كبير أداء النموذج. ومع ذلك، ما زالت نماذج VQGAN ومشتقاتها، مثل VQGAN-FC (الرموز المُفكَّكة) وVQGAN-EMA، تواجه صعوبات تتعلق بتوسيع حجم دفتر الرموز وتحسين استغلاله. على سبيل المثال، يقتصر VQGAN-FC على تعلُّم دفتر رموز بحجم أقصاه 16,384، مع معدل استغلال معتاد أقل من 12٪ على مجموعة بيانات ImageNet. في هذا العمل، نقترح نموذجًا جديدًا للكميّة الصورية يُسمّى VQGAN-LC (دفتر رموز كبير)، الذي يوسع حجم دفتر الرموز إلى 100,000، ويحقق معدل استغلال يتجاوز 99٪. على عكس الأساليب السابقة التي تُحسّن كل إدخال في دفتر الرموز بشكل منفصل، يبدأ نهجنا بتصميم دفتر رموز مكوّن من 100,000 ميزة تم استخلاصها بواسطة مُشفّر بصري مُدرّب مسبقًا. ثم تتركز عملية التحسين على تدريب "مُعَرّف" (projector) يُنسّق دفتر الرموز بأكمله مع توزيعات الميزات الناتجة عن المُشفّر في إطار نموذج VQGAN-LC. نُظهر تفوق أداء نموذجنا مقارنةً بمنافسيه في مجموعة متنوعة من المهام، بما في ذلك إعادة بناء الصور، تصنيف الصور، توليد الصور التلقائي (auto-regressive) باستخدام نموذج GPT، وإنشاء الصور باستخدام نماذج توليدية تعتمد على التشتت (diffusion) أو النماذج القائمة على التدفق (flow-based). يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/zh460045050/VQGAN-LC.