دمج الرموز: فيت الخاص بك ولكن أسرع

نقدم طريقة بسيطة تسمى دمج الرموز (ToMe) لزيادة معدّل الإنتاجية لأنماط ViT الموجودة دون الحاجة إلى التدريب. تقوم ToMe بتجميع الرموز المتشابهة تدريجيًا في محول باستخدام خوارزمية مطابقة عامة وخفيفة الوزن تكون بنفس سرعة التقليم وأكثر دقة. بشكل فوري، يمكن لـ ToMe مضاعفة معدّل الإنتاجية لأنماط ViT-L @ 512 وViT-H @ 518 على الصور بمقدار الضعف، وأنموذج ViT-L على الفيديو بمقدار 2.2 مرة مع انخفاض دقيق بنسبة 0.2-0.3% في كل حالة. يمكن أيضًا تطبيق ToMe بسهولة أثناء التدريب، مما يحسن سرعة التدريب عمليًا بمقدار الضعف لتحسين MAE على الفيديو. يؤدي التدريب باستخدام ToMe إلى تقليص الانخفاض الدقيق بشكل أكبر، مما يؤدي إلى مضاعفة معدّل الإنتاجية لأنموذج ViT-B على الصوت بنسبة 0.4% فقط من انخفاض mAP. بشكل كمي، نجد أن ToMe تقوم بدمج أجزاء الأشياء في رمز واحد، حتى عبر عدة إطارات من الفيديو. بشكل عام، تعتبر دقة وسرعة ToMe تنافسية مع أفضل ما هو موجود في مجالات الصور والفيديو والصوت.