TransFG: معمارية تحويلية للتعرف الدقيق

التقسيم البصري الدقيق (FGVC)، الذي يهدف إلى التعرف على الكائنات من فئات فرعية، يُعد مهمة صعبة للغاية نظرًا للفرق الدقيقة المتأصلة بين الفئات. تسعى معظم الدراسات الحالية إلى معالجة هذه المشكلة من خلال إعادة استخدام الشبكة الأساسية (backbone network) لاستخراج ميزات المناطق المميزة التي تم اكتشافها. ومع ذلك، فإن هذه الاستراتيجية تُعقّد بالضرورة عملية التدفق (pipeline) وتدفع المناطق المقترحة إلى احتواء معظم أجزاء الكائنات، مما يؤدي إلى فشلها في تحديد الأجزاء الفعلية المهمة. في الآونة الأخيرة، أظهرت نماذج التحويل البصري (Vision Transformer - ViT) أداءً قويًا في المهام التقليدية للتصنيف. حيث يربط آلية الانتباه الذاتي (self-attention) في التحويل البصري كل رمز قطعة (patch token) بالرمز التصنيفي (classification token). في هذا العمل، نقوم أولاً بتقييم فعالية إطار ViT في سياق التصنيف الدقيق. ثم، مستندين إلى القوة التي تُظهرها روابط الانتباه، والتي يمكن اعتبارها بشكل مُباشر مؤشرًا على أهمية الرموز (tokens)، نقترح وحدة اختيار الأجزاء (Part Selection Module) جديدة يمكن تطبيقها على معظم هياكل التحويل البصري. حيث نُدمج جميع أوزان الانتباه الأصلية للتحويل البصري في خريطة انتباه واحدة، بهدف توجيه الشبكة لاختيار فعّالة ودقيقة للقطَع الصورية المميزة وحساب علاقاتها. كما نُطبّق خسارة تقابلية (contrastive loss) لزيادة الفجوة بين تمثيلات الميزات للفئات المُربكة. ونُسمّي النموذج المُعزّز القائم على التحويل البصري بـ TransFG، ونُظهر قيمته من خلال إجراء تجارب على خمسة معايير شائعة للتصنيف الدقيق، حيث نحقق أداءً متفوقًا على الحد الأقصى (state-of-the-art). كما نقدّم نتائج نوعية لتحسين الفهم العميق لنموذجنا.