DiffRate: معدل الضغط القابل للمفاضلة لتحسين متحولات الرؤية بفعالية

يهدف ضغط الرموز (Token Compression) إلى تسريع متحولات الرؤية على نطاق واسع (مثل ViTs) من خلال تقليم (إسقاط) أو دمج الرموز. وهو مهمة مهمة ولكنها صعبة. رغم أن الأساليب المتقدمة الحديثة حققت نجاحًا كبيرًا، فإنها تحتاج إلى تصميم بعناية معدل الضغط (أي عدد الرموز التي سيتم إزالتها)، وهو أمر مرهق يؤدي إلى أداء غير مثالي. لحل هذه المشكلة، نقترح معدل الضغط القابل للمفاضلة (Differentiable Compression Rate - DiffRate)، وهو طريقة جديدة لضغط الرموز تتمتع بعدة خصائص جذابة لم تكن موجودة في الأعمال السابقة. أولاً، يتيح DiffRate نقل تدرج دالة الخسارة إلى نسبة الضغط، والتي كانت تعتبر سابقاً كمتغير فائق غير قابل للمفاضلة. في هذه الحالة، يمكن للطبقات المختلفة التعلم بشكل آلي لمعدلات ضغط مختلفة لكل طبقة دون أي تكلفة إضافية. ثانياً، يمكن تنفيذ تقليم ودمج الرموز بشكل طبيعي وبالموازاة في DiffRate، بينما كانت هذه العمليات منفصلة في الأعمال السابقة. ثالثاً، أظهرت التجارب الواسعة أن DiffRate يحقق أداءً رائدًا على مستوى العالم. على سبيل المثال، من خلال تطبيق معدلات الضغط التي تم تعلمها لكل طبقة على نموذج ViT-H (MAE) جاهز للاستخدام، حققنا تخفيض بنسبة 40% في عمليات العوميات الطيفية (FLOPs) وتحسين بنسبة 1.5 مرة في السرعة مع انخفاض طفيف في الدقة بنسبة 0.16% على مجموعة بيانات ImageNet دون إعادة التدريب الدقيق، وحتى تفوقنا على الأساليب السابقة التي استخدمت إعادة التدريب الدقيق. يمكن الحصول على الأكواد والنماذج من https://github.com/OpenGVLab/DiffRate.