Transformer مع كبح القمة والتوجيه المعرفي للتعرف الدقيق على الصور

تمثّل التعرف على الصور الدقيقة تحديًا كبيرًا نظرًا لكون المؤشرات التمييزية غالبًا ما تكون مجزأة، سواء كانت من صورة واحدة أو من صور متعددة. وعلى الرغم من التحسينات الكبيرة التي أحرزتها الطرق الحالية، إلا أن معظمها ما زال يركّز على الأجزاء الأكثر تمييزًا في صورة واحدة فقط، مما يؤدي إلى إهمال التفاصيل المفيدة في مناطق أخرى، ويعاني من نقص في مراعاة المؤشرات المستمدة من صور مرتبطة أخرى. في هذا البحث، نحلّل صعوبات التعرف على الصور الدقيقة من منظور جديد، ونُقدّم بنية مُعتمدة على المُحَوِّل (Transformer) تتضمّن وحدة قمع القمم (Peak Suppression Module) ووحدة التوجيه بالمعرفة (Knowledge Guidance Module)، بحيث تراعي تنوع الخصائص التمييزية داخل صورة واحدة، وتُعزّز تجميع المؤشرات التمييزية بين صور متعددة. وبشكل مفصّل، تستخدم وحدة قمع القمم أولاً تحويلًا خطيًا لتحويل الصورة المدخلة إلى تسلسل من الرموز (tokens)، ثم تُقيّد الرموز بناءً على استجابة الانتباه الناتجة عن معالج المُحَوِّل (Transformer Encoder). وتُطبّق هذه الوحدة عقوبة على الانتباه المركّز على الأجزاء الأكثر تمييزًا أثناء عملية تعلّم الميزات، مما يُعزّز استغلال المعلومات في المناطق المُهمّشة. أما وحدة التوجيه بالمعرفة، فهي تقارن التمثيل القائم على الصورة الناتج من وحدة قمع القمم مع مجموعة من تضمينات المعرفة القابلة للتعلّم، بهدف الحصول على معاملات استجابة المعرفة. ثم تُصاغ عملية تعلّم المعرفة كمشكلة تصنيف باستخدام معاملات الاستجابة كدرجات تصنيف. وتُحدَّث تضمينات المعرفة والتمثيلات القائمة على الصور أثناء التدريب، بحيث تشمل تضمينات المعرفة مؤشرات تمييزية مميزة لكل صورة. وأخيرًا، نُدمج تضمينات المعرفة المكتسبة في التمثيلات القائمة على الصورة لتكوين تمثيلات شاملة، ما يؤدي إلى تحسين ملحوظ في الأداء. وقد أظهرت التقييمات الواسعة على ستة مجموعات بيانات شهيرة تفوق الطريقة المقترحة.