العينة النادرة المختارة للتصنيف الدقيق للصور

تُشكِّل التعرف الدقيق تحديًا فريدًا يتمثل في التقاط الفروق الدقيقة بين الفئات تحت تباينات داخلية كبيرة (مثل مناقير طيور مختلفة). تعتمد الأساليب التقليدية على قص مناطق محلية وتعلم تمثيلات مفصلة من هذه المناطق، لكنها تعاني من عدد ثابت من الأجزاء وفقدان السياق المحيط. في هذا البحث، نقترح إطارًا بسيطًا وفعالًا يُسمى "العينة الشاذة المختارة"، والذي يهدف إلى التقاط تفاصيل متنوعة ودقيقة. يتم تنفيذ هذا الإطار باستخدام الشبكات العصبية التلافيفية، ويُعرف بـ "شبكات العينة الشاذة المختارة" (S3Ns). وباستخدام الإشراف على مستوى الصورة، تقوم S3Ns بجمع القمم، أي القيم القصوى المحلية، من خرائط استجابة الفئة لتقدير مجالات استقبال معلوماتية، وتعلم مجموعة من الانتباه النادر لالتقاط الأدلة البصرية الدقيقة مع الحفاظ على السياق. وتُستخرج هذه الأدلة بطرق مختارة لاستخلاص ميزات تمييزية ومتكمِّلة، مما يُثري بشكل كبير التمثيل المتعلم ويوجه الشبكة للكشف عن مظاهر أكثر دقة. أظهرت التجارب الواسعة والدراسات التحليلية أن الطريقة المقترحة تتفوّق باستمرار على أحدث الأساليب في معايير صعبة مثل CUB-200-2011 وFGVC-Aircraft وStanford Cars.