الملخص

في الآونة الأخيرة، أثبتت نماذج Vision Transformer (ViT) قدرتها على تحقيق إنجازات جديدة متواصلة في مجال الرؤية الحاسوبية، ومع ذلك فإن التكلفة العالية للحسابات والذاكرة تجعل انتشارها في الإنتاج الصناعي صعبًا. يعتبر التقليم، وهو نموذج تقليدي لضغط النماذج لتحقيق كفاءة الأجهزة، قد تم تطبيقه على نطاق واسع في العديد من هياكل الشبكات العصبية العميقة (DNN). ومع ذلك، لا يزال غير واضح كيفية تنفيذ التقليم الحصري لهيكل ViT. بالنظر إلى ثلاثة نقاط رئيسية: خصائص الهيكل، وأنماط البيانات الداخلية في ViTs، ونشر الأجهزة المتصلة بالشبكة ذات الصلة، فقد استفدنا من ندرة الرموز المدخلية واقترحنا إطارًا للتقليم الناعم الواعي بالحسابات يمكن تطبيقه على نماذج Transformers البسيطة سواء كانت بنيتها مسطحة أو من نوع CNN، مثل Pooling-based ViT (PiT).بشكل أكثر تحديدًا، صممنا محدد رموز متعدد الرؤوس يعتمد على الانتباه الديناميكي، وهو وحدة خفيفة الوزن تقوم باختيار الرموز بشكل تكيفي حسب كل حالة. كما قمنا بتطوير تقنية تقليم ناعمة تقوم بدمج الرموز الأقل معلوماتية التي ينتجها وحدة الاختيار في رمز حزمة سيشارك في الحسابات اللاحقة بدلاً من التخلص منه تمامًا. يتم ربط إطارنا الخاص بين دقة النموذج وتقييدات الحسابات الخاصة بالأجهزة المتصلة بالشبكة من خلال استراتيجية التدريب الواعية بالحسابات المقترحة لدينا.تظهر النتائج التجريبية أن إطارنا الخاص يقلل بشكل كبير من تكلفة الحسابات لـ ViTs مع الحفاظ على أداء مشابه في تصنيف الصور. بالإضافة إلى ذلك، يمكن لإطارنا ضمان تحقيق النموذج المحدد للمواصفات المواردية للأجهزة المحمولة وFPGA وحتى تحقيق تنفيذ الوقت الحقيقي لـ DeiT-T على المنصات المحمولة. على سبيل المثال، طرحت طريقتنا وقت الاستجابة لـ DeiT-T إلى 26 ميلي ثانية (أفضل بنسبة 26٪ ~ 41٪ من الأعمال الموجودة)، مع زيادة دقة المرتبة الأولى بنسبة 0.25٪ ~ 4٪ على مجموعة بيانات ImageNet.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

SPViT: تمكين متحولات الرؤية الأسرع من خلال تقليم الرموز الناعم

Zhenglun Kong∗1, Peiyan Dong∗1, Xiaolong Ma2, Xin Meng3, Wei Niu4, Mengshu Sun1, Xuan Shen1, Geng Yuan1, Bin Ren4, Hao Tang5, Minghai Qin1, and Yanzhi Wang1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SPViT: تمكين متحولات الرؤية الأسرع من خلال تقليم الرموز الناعم

Zhenglun Kong∗1, Peiyan Dong∗1, Xiaolong Ma2, Xin Meng3, Wei Niu4, Mengshu Sun1, Xuan Shen1, Geng Yuan1, Bin Ren4, Hao Tang5, Minghai Qin1, and Yanzhi Wang1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SPViT: تمكين متحولات الرؤية الأسرع من خلال تقليم الرموز الناعم

Zhenglun Kong∗1, Peiyan Dong∗1, Xiaolong Ma2, Xin Meng3, Wei Niu4, Mengshu Sun1, Xuan Shen1, Geng Yuan1, Bin Ren4, Hao Tang5, Minghai Qin1, and Yanzhi Wang1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters