HyperAIHyperAI

Command Palette

Search for a command to run...

SPViT: تمكين متحولات الرؤية الأسرع من خلال تقليم الرموز الناعم

Zhenglun Kong∗1, Peiyan Dong∗1, Xiaolong Ma2, Xin Meng3, Wei Niu4, Mengshu Sun1, Xuan Shen1, Geng Yuan1, Bin Ren4, Hao Tang5, Minghai Qin1, and Yanzhi Wang1

الملخص

في الآونة الأخيرة، أثبتت نماذج Vision Transformer (ViT) قدرتها على تحقيق إنجازات جديدة متواصلة في مجال الرؤية الحاسوبية، ومع ذلك فإن التكلفة العالية للحسابات والذاكرة تجعل انتشارها في الإنتاج الصناعي صعبًا. يعتبر التقليم، وهو نموذج تقليدي لضغط النماذج لتحقيق كفاءة الأجهزة، قد تم تطبيقه على نطاق واسع في العديد من هياكل الشبكات العصبية العميقة (DNN). ومع ذلك، لا يزال غير واضح كيفية تنفيذ التقليم الحصري لهيكل ViT. بالنظر إلى ثلاثة نقاط رئيسية: خصائص الهيكل، وأنماط البيانات الداخلية في ViTs، ونشر الأجهزة المتصلة بالشبكة ذات الصلة، فقد استفدنا من ندرة الرموز المدخلية واقترحنا إطارًا للتقليم الناعم الواعي بالحسابات يمكن تطبيقه على نماذج Transformers البسيطة سواء كانت بنيتها مسطحة أو من نوع CNN، مثل Pooling-based ViT (PiT).بشكل أكثر تحديدًا، صممنا محدد رموز متعدد الرؤوس يعتمد على الانتباه الديناميكي، وهو وحدة خفيفة الوزن تقوم باختيار الرموز بشكل تكيفي حسب كل حالة. كما قمنا بتطوير تقنية تقليم ناعمة تقوم بدمج الرموز الأقل معلوماتية التي ينتجها وحدة الاختيار في رمز حزمة سيشارك في الحسابات اللاحقة بدلاً من التخلص منه تمامًا. يتم ربط إطارنا الخاص بين دقة النموذج وتقييدات الحسابات الخاصة بالأجهزة المتصلة بالشبكة من خلال استراتيجية التدريب الواعية بالحسابات المقترحة لدينا.تظهر النتائج التجريبية أن إطارنا الخاص يقلل بشكل كبير من تكلفة الحسابات لـ ViTs مع الحفاظ على أداء مشابه في تصنيف الصور. بالإضافة إلى ذلك، يمكن لإطارنا ضمان تحقيق النموذج المحدد للمواصفات المواردية للأجهزة المحمولة وFPGA وحتى تحقيق تنفيذ الوقت الحقيقي لـ DeiT-T على المنصات المحمولة. على سبيل المثال، طرحت طريقتنا وقت الاستجابة لـ DeiT-T إلى 26 ميلي ثانية (أفضل بنسبة 26٪ ~ 41٪ من الأعمال الموجودة)، مع زيادة دقة المرتبة الأولى بنسبة 0.25٪ ~ 4٪ على مجموعة بيانات ImageNet.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp