IA-RED$^2$: تقليل الأهمية مع الوعي بالقابلية للتفسير لـ Transformers البصرية

النموذج القائم على الذاتية الانتباه (الترانسفورمر) أصبح مؤخرًا العمود الفقري الرئيسي في مجال رؤية الحاسوب. رغم النجاح المثير للإعجاب الذي حققه الترانسفورمر في مجموعة متنوعة من مهام الرؤية، لا يزال يعاني من حسابات ثقيلة وتكاليف ذاكرة عالية. لمعالجة هذا القيد، يقدم هذا البحث إطارًا لتقليل الأحجام الزائدة مع الوعي بالتأويل (IA-RED$^2$). نبدأ بملاحظة وجود كمية كبيرة من الحسابات الزائدة، والتي تنفق بشكل أساسي على بقع الإدخال غير المرتبطة، ثم نقدم وحدة قابلة للتأويل تلقي هذه البقع الزائدة بطريقة ديناميكية ومنسجمة. يتم توسيع هذا الإطار الجديد إلى هيكل هرمي، حيث يتم إزالة الرموز غير المرتبطة تدريجيًا في المراحل المختلفة، مما يؤدي إلى تقليص كبير في تكاليف الحساب. نقوم بتضمين تجارب واسعة النطاق على مهام الصور والفيديوهات، حيث يمكن أن توفر طريقتنا زيادة سرعة تصل إلى 1.4 مرة للموديلات المتقدمة مثل DeiT وTimeSformer، مع التضحية بنسبة أقل من 0.7% في الدقة. وأهم من ذلك، على عكس نهج التسارع الأخرى، فإن طريقتنا قابلة للتأويل بشكل جوهري مع أدلة بصرية مهمة، مما يجعل الترانسفورمر البصري أقرب إلى بنية أكثر فهمًا للإنسان بينما يكون أخف وزنًا. نوضح أن التأويل الذي ظهر بشكل طبيعي في إطارنا يمكن أن يتفوق على الانتباه الخام الذي تعلمه الترانسفورمر البصري الأصلي وكذلك تلك التي تم إنشاؤها بواسطة طرق التأويل الجاهزة، وذلك باستخدام النتائج النوعية والكمية. صفحة المشروع: http://people.csail.mit.edu/bpan/ia-red/.