دمج تصاميم التصفية في المحولات البصرية

مُحفَّزين بالنجاح الذي حققته نماذج Transformers في مهام معالجة اللغة الطبيعية (NLP)، ظهرت محاولات متعددة (مثل ViT وDeiT) لتطبيق نماذج Transformers في مجال الرؤية الحاسوبية. ومع ذلك، فإن الهياكل النموذجية المبنية بالكامل على Transformers غالبًا ما تتطلب كميات كبيرة من البيانات التدريبية أو مراقبة إضافية للحصول على أداء مماثل لشبكات التعميم التلافيفية (CNNs). وللتغلب على هذه القيود، نقوم بتحليل العيوب المحتملة الناتجة عن استعارة هياكل Transformers مباشرة من مجال NLP. ثم نقترح نموذجًا جديدًا يُسمى Transformer الصور المُعزَّز بالتحول التلافيفي (CeiT)، الذي يجمع بين مزايا الشبكات التلافيفية في استخلاص السمات من الدرجة الدنيا، وتعزيز الترابط المحلي، ومزايا Transformers في بناء الاعتماديات طويلة المدى. تم إجراء ثلاث تعديلات على النموذج الأصلي لـ Transformer:1) بدلًا من التجزئة المباشرة للصور المدخلة الخام، نصمم وحدة تُسمى "التحويل من الصورة إلى الرموز (I2T)" تقوم باستخراج البُقع من السمات من الدرجة الدنيا المُنتجة؛2) نستبدل شبكة التغذية الأمامية (Feed-Forward) في كل كتلة مشفرة بطبقة تُسمى "الشبكة التغذوية المُعزَّزة محليًا (LeFF)"، التي تعزز الترابط بين الرموز المجاورة في البُعد المكاني؛3) نضيف في الجزء العلوي من Transformer وحدة تُسمى "الانتباه المُعتمد على الطبقة للرمز الفئة (LCA)"، التي تستخدم التمثيلات متعددة المستويات.أظهرت النتائج التجريبية على ImageNet وسبعة مهام تطبيقية أخرى كفاءة وقابلية تعميم عالية لنموذج CeiT مقارنة بالنماذج السابقة من Transformers والشبكات التلافيفية الرائدة، دون الحاجة إلى كميات كبيرة من البيانات التدريبية أو معلمات CNN إضافية. علاوةً على ذلك، أظهرت نماذج CeiT تقاربًا أفضل بـ 3 أضعاف أقل عدد من تكرارات التدريب، مما يُقلل بشكل كبير من تكلفة التدريب\footnote{سيتم نشر الكود والنماذج عند قبول البحث}.