التقسيم القابل للتوسع للوسائط الصورية باستخدام التكميم المعتمد على التغذية العكسية للمؤشر

تواجه أساليب التكميم المتجهي (VQ) الحالية صعوبات في التوسع، ويعود ذلك بشكل رئيسي إلى عدم استقرار المجموعة الرمزية (codebook) التي تمر بتحديثات جزئية أثناء التدريب. تميل المجموعة الرمزية إلى الانهيار مع انخفاض معدل الاستخدام، ناتجًا عن التوسع المتزايد في الفجوة التوزيعية بين الرموز غير المُفعّلة والسمات البصرية. ولحل هذه المشكلة، نقترح طريقة جديدة تُسمى التكميم عبر انتقال الفهرس (Index Backpropagation Quantization - IBQ)، وهي طريقة جديدة لتكميم متجهي تُعنى بتحسين مشترك لجميع تضمينات المجموعة الرمزية والمحول البصري (visual encoder). من خلال تطبيق مُقدّر مستقيم (straight-through estimator) على التوزيع الفئوي one-hot بين السمة المشفرة والمجموعة الرمزية، تصبح جميع الرموز قابلة للتفاضل، وتُحافظ على فضاء خطي متسق مع المحول البصري. تُمكّن IBQ من التدريب المُ-scalable لمحولات الرموز البصرية، وتحقق لأول مرة مجموعة رمزية كبيرة الحجم (2¹⁸) ذات أبعاد عالية (256) ومستوى استفادة عالٍ. تُظهر التجارب على معيار ImageNet القياسي التوسعية والتفوّق في أداء IBQ، حيث تُحقّق نتائج تنافسية في إعادة البناء وفي تطبيقات التوليد البصري التتابعي (autoregressive visual generation). يُمكن الاطلاع على الكود والنموذج عبر الرابط: https://github.com/TencentARC/SEED-Voken.