HyperAIHyperAI

Command Palette

Search for a command to run...

التقسيم القابل للتوسع للوسائط الصورية باستخدام التكميم المعتمد على التغذية العكسية للمؤشر

Fengyuan Shi Zhuoyan Luo Yixiao Ge Yujiu Yang Ying Shan Limin Wang

الملخص

تواجه أساليب التكميم المتجهي (VQ) الحالية صعوبات في التوسع، ويعود ذلك بشكل رئيسي إلى عدم استقرار المجموعة الرمزية (codebook) التي تمر بتحديثات جزئية أثناء التدريب. تميل المجموعة الرمزية إلى الانهيار مع انخفاض معدل الاستخدام، ناتجًا عن التوسع المتزايد في الفجوة التوزيعية بين الرموز غير المُفعّلة والسمات البصرية. ولحل هذه المشكلة، نقترح طريقة جديدة تُسمى التكميم عبر انتقال الفهرس (Index Backpropagation Quantization - IBQ)، وهي طريقة جديدة لتكميم متجهي تُعنى بتحسين مشترك لجميع تضمينات المجموعة الرمزية والمحول البصري (visual encoder). من خلال تطبيق مُقدّر مستقيم (straight-through estimator) على التوزيع الفئوي one-hot بين السمة المشفرة والمجموعة الرمزية، تصبح جميع الرموز قابلة للتفاضل، وتُحافظ على فضاء خطي متسق مع المحول البصري. تُمكّن IBQ من التدريب المُ-scalable لمحولات الرموز البصرية، وتحقق لأول مرة مجموعة رمزية كبيرة الحجم (2¹⁸) ذات أبعاد عالية (256) ومستوى استفادة عالٍ. تُظهر التجارب على معيار ImageNet القياسي التوسعية والتفوّق في أداء IBQ، حيث تُحقّق نتائج تنافسية في إعادة البناء وفي تطبيقات التوليد البصري التتابعي (autoregressive visual generation). يُمكن الاطلاع على الكود والنموذج عبر الرابط: https://github.com/TencentARC/SEED-Voken.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp