SIM-OFE: استخراج معلومات البنية وتعزيز الميزات الواعية بالكائنات للفئات البصرية الدقيقة
يهدف التصنيف البصري الدقيق (FGVC) إلى التمييز بين الكائنات البصرية من فئات فرعية متعددة ضمن فئة عامة خشنة. تُعد الفروق الدقيقة بين الفئات المختلفة من الفئات الفرعية تحديًا أكبر لمهام FGVC. تركز الطرق الحالية بشكل رئيسي على تعلم الأنماط البصرية البارزة، مع إهمال كيفية التقاط البنية الداخلية للكائن، مما يسبب صعوبة في استخلاص مناطق تمييزية كاملة داخل الكائن، ما يحد من أداء FGVC. ولحل هذه المشكلة، نقترح طريقة تُسمى "استخراج المعلومات الهيكلية وتعزيز الميزات المُتّبعة للكائن" (SIM-OFE) للتصنيف البصري الدقيق، والتي تستكشف تركيب البنية الداخلية والسمات الشكلية للكائن البصري. بشكل مفصل، نقترح أولاً وحدة انتباه هجينة بسيطة ولكن فعالة لتحديد مواقع الكائنات البصرية من خلال تحليلات تتعلق بالأهمية على نطاق واسع (العمومي) والتركيز على نطاق ضيق (المحلّي). ثم نقترح وحدة لاستخراج المعلومات الهيكلية لتمثيل توزيع العلاقات السياقية للمناطق الحاسمة داخل الكائن، مع التأكيد على الكائن بأكمله والمناطق التمييزية لتمييز الفروق الدقيقة. وأخيرًا، نقترح وحدة لتعزيز الميزات المُتّبعة للكائن لدمج الميزات التمييزية على نطاق واسع وضيق بطريقة مُركّزة، بهدف إنشاء تمثيلات بصرية قوية للاعتراف الدقيق. أظهرت التجارب الواسعة على ثلاث مجموعات بيانات معيارية لـ FGVC أن طريقة SIM-OFE المقترحة تحقق أداءً من الدرجة الأولى في مجالها.