منذ 2 أشهر

العرض التقديمي: تقليم وإعادة تجميع الرموز لتحسين كفاءة متحولات الرؤية

Wu, Xinjian ; Zeng, Fanhu ; Wang, Xiudong ; Chen, Xinghao

الملخص

ظهرت نماذج Vision Transformers (ViTs) كنماذج قوية في مجال الرؤية الحاسوبية، حيث أثبتت تفوقها في أداء مجموعة متنوعة من المهام المرتبطة بالرؤية. ومع ذلك، فإن التعقيد الحسابي العالي يشكل عائقًا كبيرًا أمام تطبيقاتها العملية في السيناريوهات الحقيقية. انطلاقًا من حقيقة أن ليس جميع العناصر المكونة للنموذج (tokens) تساهم بشكل متساوٍ في التنبؤات النهائية وأن عددًا أقل من العناصر يؤدي إلى تكلفة حسابية أقل، أصبح تقليص العناصر الزائدة مبدأ سائدًا لتسريع Vision Transformers. ومع ذلك، نعتقد أنه ليس الأمثل إما تقليص التكرار غير الانتقائي فقط عن طريق تقليم العناصر (token pruning)، أو تقليص التكرار المكرر فقط عن طريق دمج العناصر (token merging). بهدف معالجة هذين النوعين من التكرار بطريقة متكيفة في طبقات مختلفة، نقترح في هذا البحث إطار عمل جديد يُسمى Token Pruning & Pooling Transformers (PPT) لتحقيق هذا الغرض. يتم دمج تقنيتي تقليم العناصر وجمع العناصر (token pooling) بشكل هيكلي في ViTs دون الحاجة إلى أي معلمات قابلة للتدريب إضافية، مما يقلل بفعالية من تعقيد النموذج مع الحفاظ على دقة التنبؤاته. على سبيل المثال، يقلل PPT أكثر من 37% من العمليات الطبيعية (FLOPs) ويحسن معدل المعالجة بأكثر من 45% لنموذج DeiT-S دون أي انخفاض في الدقة على مجموعة بيانات ImageNet. يمكن الحصول على الكود البرمجي من https://github.com/xjwu1024/PPT و https://github.com/mindspore-lab/models/