إعادة التصنيف التصنيف الأولي باستخدام ميزات محسّنة من المناطق المحلية للتعرف الدقيق على الصور

تمثّل التعرف على الصور ذات الدقة العالية تحديًا كبيرًا بسبب الصعوبة في التقاط كل من السمات الشاملة ذات المعنى والسمات المحلية التمييزية. وفي الوقت نفسه، لا يُعد دمج هاتين النوعيتين أمرًا سهلًا، بل قد يكونان متعارضين عند استخدامهما معًا. في هذا البحث، تم اقتراح إطار عمل استرجاعي يعتمد على نهج من التعميم إلى التفصيل، حيث نُعيد ترتيب نتائج التصنيف المُصنفة ضمن أعلى N نتائج باستخدام ميزات تضمين إضافية تعزز المناطق المحلية، بهدف تحسين دقة التصنيف الأول (Top1) (استنادًا إلى الملاحظة التي تفيد بأن الفئة الصحيحة تقع غالبًا ضمن النتائج العليا N). وللحصول على مناطق تمييزية تساعد في التمييز بين الصور ذات الدقة العالية، قمنا بدمج طريقة مُدرّبة بشكل ضعيف لتدريب فرع يُولِّد مربعات (box) باستخدام علامات صورة فقط (image-level labels). بالإضافة إلى ذلك، لتعلم سمات شاملة ذات معنى أكثر فعالية، قمنا بتصميم دالة خسارة متعددة المستويات على هيكل فئات هرمي تم بناؤه تلقائيًا. وأظهرت النتائج التجريبية أن طريقة العمل هذه تحقق أداءً متميزًا على أعلى المستويات في ثلاث معايير شهيرة: CUB-200-2011، وStanford Cars، وFGVC Aircraft. كما تم تقديم تصورات بصرية وتحليلات لتحسين الفهم.