HyperAIHyperAI

Command Palette

Search for a command to run...

العرض التقديمي: تقليم وإعادة تجميع الرموز لتحسين كفاءة متحولات الرؤية

Xinjian Wu Fanhu Zeng Xiudong Wang Xinghao Chen

الملخص

ظهرت نماذج Vision Transformers (ViTs) كنماذج قوية في مجال الرؤية الحاسوبية، حيث أثبتت تفوقها في أداء مجموعة متنوعة من المهام المرتبطة بالرؤية. ومع ذلك، فإن التعقيد الحسابي العالي يشكل عائقًا كبيرًا أمام تطبيقاتها العملية في السيناريوهات الحقيقية. انطلاقًا من حقيقة أن ليس جميع العناصر المكونة للنموذج (tokens) تساهم بشكل متساوٍ في التنبؤات النهائية وأن عددًا أقل من العناصر يؤدي إلى تكلفة حسابية أقل، أصبح تقليص العناصر الزائدة مبدأ سائدًا لتسريع Vision Transformers. ومع ذلك، نعتقد أنه ليس الأمثل إما تقليص التكرار غير الانتقائي فقط عن طريق تقليم العناصر (token pruning)، أو تقليص التكرار المكرر فقط عن طريق دمج العناصر (token merging). بهدف معالجة هذين النوعين من التكرار بطريقة متكيفة في طبقات مختلفة، نقترح في هذا البحث إطار عمل جديد يُسمى Token Pruning & Pooling Transformers (PPT) لتحقيق هذا الغرض. يتم دمج تقنيتي تقليم العناصر وجمع العناصر (token pooling) بشكل هيكلي في ViTs دون الحاجة إلى أي معلمات قابلة للتدريب إضافية، مما يقلل بفعالية من تعقيد النموذج مع الحفاظ على دقة التنبؤاته. على سبيل المثال، يقلل PPT أكثر من 37% من العمليات الطبيعية (FLOPs) ويحسن معدل المعالجة بأكثر من 45% لنموذج DeiT-S دون أي انخفاض في الدقة على مجموعة بيانات ImageNet. يمكن الحصول على الكود البرمجي من https://github.com/xjwu1024/PPT و https://github.com/mindspore-lab/models/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp