نموذج الانتباه المدرك للسمات لتعلم التمثيل الدقيق

كيفية تعلم تمثيل دقيق ومميز هو نقطة رئيسية في العديد من تطبيقات رؤية الحاسوب، مثل إعادة تعريف الشخص، تصنيف الدقة الفائقة، استرجاع الصور بدقة فائقة، وغيرها. أغلب الطرق السابقة تركز على تعلم المقاييس أو التجميع لاستنتاج تمثيل عالمي أفضل، والتي غالباً ما تكون ناقصة المعلومات المحلية. بناءً على هذه الاعتبارات، نقترح نموذج انتباه جديد يعتمد على السمات (Attribute-Aware Attention Model - $A^3M$)، والذي يمكنه تعلم تمثيل السمات المحلية وتمثيل الفئات العالمية بشكل متزامن بطريقة منتهية إلى نهاية. يتضمن النموذج المقترح نموذجين للانتباه: وحدة انتباه موجهة بالسمات تستفيد من معلومات السمات لمساعدتها في اختيار خصائص الفئات في المناطق المختلفة، وفي الوقت نفسه، وحدة انتباه موجهة بالفئات تختار الخصائص المحلية للسمات المختلفة بمساعدة إشارات الفئات. من خلال هذا العملية المتبادلة بين السمات والفئات، يستفيد كل من الخصائص المحلية والعالمية من بعضهما البعض. في النهاية، يحتوي التمثيل الناتج على المزيد من المعلومات الجوهرية للاعتراف بالصور بدلاً من الخصائص الضوضائية وغير ذات الصلة. أجريت تجارب واسعة النطاق على قواعد بيانات Market-1501 وCompCars وCUB-200-2011 وCARS196 لتظهر فعالية نموذجنا $A^3M$. الرمز البرمجي متاح على https://github.com/iamhankai/attribute-aware-attention.