بحث عن الشيطان في التفاصيل: تعلم شبكة العينة الانتباهية الثلاثية للتمييز الدقيق في الصور

يُلعب تعلم الخصائص الدقيقة والتمييزية (مثل المنقار والعينين للطير) دورًا مهمًا في التعرف الدقيق على الصور. غالبًا ما تعاني النهج القائمة على الانتباه من عدد محدود من الأجزاء وتكلفة حسابية كبيرة عند تحديد وتضخيم الأجزاء المهمة لتعلم التفاصيل الدقيقة. في هذا البحث، نقترح تعلم هذه الخصائص الدقيقة من مئات مقترحات الأجزاء بفعالية وبطريقة معلم-طالب باستخدام شبكة العينات ثلاثية الخط (TASN). تحديدًا، تتكون TASN من: 1) وحدة انتباه ثلاثية الخط، التي تولد خرائط الانتباه عن طريق نمذجة العلاقات بين القنوات، 2) جهاز عيّنة قائم على الانتباه، الذي يبرز الأجزاء المعنية بدقة عالية، و3) جهاز استخلاص الخصائص، الذي يستخلص خصائص الأجزاء إلى واحدة عالمية باستخدام استراتيجيات تقاسم الوزن والحفاظ على الخصائص. تؤكد التجارب الواسعة أن TASN تحقق أفضل الأداء بنفس الإعدادات مع أكثر النهج تنافسية في مجموعات بيانات iNaturalist-2017 وCUB-Bird وStanford-Cars.