مُصَمَّم التحويلة البصرية لدمج الميزات لتصنيف بصري دقيق

الجوهر في معالجة التصنيف البصري الدقيق (FGVC) يكمن في تعلُّم ميزات رقيقة ولكن تمييزية. وقد حاولت معظم الدراسات السابقة تحقيق ذلك من خلال اختيار الأجزاء التمييزية بشكل صريح، أو من خلال دمج آلية الانتباه باستخدام النماذج القائمة على الشبكات العصبية التلافيفية (CNN). ومع ذلك، فإن هذه الطرق تزيد من التعقيد الحسابي، وتجعل النموذج يُهيمن عليه المناطق التي تحتوي على أكبر كمية من الكائنات. في الآونة الأخيرة، حققت نماذج التحويل البصري (ViT) أداءً متقدمًا جدًا في مهام التعرف العام على الصور. حيث تُجمع آلية الانتباه الذاتي المعلومات من جميع القطع (patches) وتحوّلها إلى رمز التصنيف، مما يجعلها مثالية تمامًا لمهام FGVC. غير أن رمز التصنيف في الطبقات العميقة يُولي اهتمامًا أكبر للمعلومات الشاملة (العامة)، ويعاني من نقص في المعلومات المحلية والمستويات المنخفضة، التي تُعد ضرورية لمهام FGVC. في هذا العمل، نقترح إطارًا جديدًا يعتمد بالكامل على التحويل البصري يُسمى "التحويل البصري المُدمج للسمات" (FFVT)، حيث نجمع الرموز المهمة من كل طبقة في التحويل البصري لتعويض نقص المعلومات المحلية والمستويات المنخفضة والمتوسطة. كما صممنا وحدة اختيار رموز جديدة تُسمى "اختيار وزن الانتباه المتبادل" (MAWS)، والتي توجه الشبكة بشكل فعّال وكفؤ نحو اختيار الرموز التمييزية دون إدخال معلمات إضافية. وقد تأكدنا من فعالية FFVT على ثلاث معايير معيارية، حيث حقق أداءً متفوقًا على جميع النماذج السابقة.