الدمج متعدد المعايير للرموز مع الانتباه المتقدم بخطوة واحدة لتحسين كفاءة متحولات الرؤية

ظهر نموذج Vision Transformer (ViT) كعمود فقري بارز في مجال رؤية الحاسوب. لتحسين كفاءة ViTs، تعمل الدراسات الحديثة على تقليل التكلفة التربيعية لطبقة الانتباه الذاتي من خلال تقليم أو دمج الرموز الزائدة. ومع ذلك، واجهت هذه الدراسات تحدي التوازن بين السرعة والدقة الناتج عن فقدان المعلومات. في هذا البحث، نؤكد أن عملية دمج الرموز يجب أن تأخذ بعين الاعتبار العلاقات المتنوعة بين الرموز لتقليل فقدان المعلومات إلى أدنى حد ممكن. نقترح في هذه الورقة طريقة Multi-criteria Token Fusion (MCTF)، التي تقوم بدمج الرموز تدريجيًا بناءً على معايير متعددة (مثل الشبه، والمعلوماتية، وحجم الرموز المدمجة). بالإضافة إلى ذلك، نستفيد من انتباه الخطوة الواحدة القادمة، وهو نهج محسن لتحديد المعلوماتية للرموز. من خلال تدريب النموذج المجهز بميزة MCTF باستخدام ثبات تخفيض الرموز، نحقق أفضل توازن بين السرعة والدقة في تصنيف الصور (ImageNet1K). تثبت النتائج التجريبية أن MCTF يتفوق باستمرار على طرق التخفيض السابقة سواء مع أو بدون التدريب. بشكل خاص، يقلل DeiT-T وDeiT-S المجهزان بميزة MCTF من العمليات العددية (FLOPs) بنسبة حوالي 44% مع تحسين الأداء (+0.5% و+0.3%) مقارنة بالنموذج الأساسي، على التوالي. كما نوضح قابلية التطبيق لميزة MCTF في مختلف نماذج Vision Transformers (مثل T2T-ViT وLV-ViT)، حيث يتم تحقيق سرعة زيادة بنسبة لا تقل عن 31% دون أي انخفاض في الأداء. يمكن الوصول إلى الكود عبر الرابط: https://github.com/mlvlab/MCTF.