HyperAIHyperAI
منذ 17 أيام

التصنيف البصري الدقيق عبر التعلم المُجمّع الداخلي لمحول

{Bin Luo, Bo Jiang, Jiahui Wang, Qin Xu}
الملخص

في الآونة الأخيرة، تم استكشاف نماذج المحولات البصرية (ViTs) في التعرف البصري الدقيق (FGVC)، واعتُبرت الآن الأفضل في مجالها. ومع ذلك، تتجاهل معظم الدراسات القائمة على ViT الأداء المتفاوت بين الوحدات (الرؤوس) في آلية الانتباه الذاتي متعدد الرؤوس (MHSA) وطبقاتها المختلفة. ولحل هذه المشكلات، نقترح في هذه الورقة نموذجًا جديدًا يُسمى "محول التعلم المجمّع الداخلي" (IELT) مُصممًا خصيصًا لـ FGVC. يتكوّن النموذج المقترح IELT من ثلاث وحدات رئيسية: وحدة التصويت متعدد الرؤوس (MHV)، ووحدة التحسين عبر الطبقات (CLR)، ووحدة الاختيار الديناميكي (DS). لمعالجة مشكلة التباين في أداء الرؤوس المتعددة، نقترح وحدة MHV التي تُعامل جميع الرؤوس في كل طبقة كمُتعلّمين ضعيفين، وتُصوّت على الرموز (tokens) الخاصة بالمناطق التمييزية استنادًا إلى خرائط الانتباه والعلاقات المكانية، بهدف إنتاج سمات عبر الطبقات. ولاستخراج السمات عبر الطبقات بشكل فعّال وقمع الضوضاء، نُقدّم وحدة CLR، التي تقوم باستخراج سمات مُحسَّنة، وتُطوّر عملية "الإسقاط المساعد" (assist logits) لتحسين التنبؤ النهائي. بالإضافة إلى ذلك، تُعدّ وحدة DS المُصممة حديثًا قادرة على تعديل عدد الرموز المختارة في كل طبقة من خلال توزيع أوزان تتناسب مع مساهمات السمات المُحسَّنة. وبهذا، يتم دمج فكرة التعلم المجمّع (ensemble learning) مع نموذج ViT لتحسين تمثيل السمات الدقيقة. تُظهر التجارب أن طريقة العمل المقترحة تحقق نتائج تنافسية مقارنةً بأفضل الأداءات الحالية على خمسة مجموعات بيانات شهيرة في مجال FGVC. وقد تم إصدار الشفرة المصدرية وتنشر على الرابط التالي: https://github.com/mobulan/IELT.