SR-GNN: شبكة عصبية رسمية تُراعي العلاقات المكانية للتصنيف الدقيق للصور

خلال السنوات القليلة الماضية، تم تحقيق تقدم كبير في شبكات التعرف على الصور القائمة على الشبكات العصبية التلافيفية العميقة (CNNs). ويعود هذا إلى القدرة القوية لهذه الشبكات في استخلاص معلومات مميزة حول وضعية الكائنات وأجزائها من خلال النسيج والشكل. ومع ذلك، فإن هذا النهج غالبًا ما يكون غير مناسب للتصنيف البصري الدقيق (FGVC)، نظرًا لوجود تباين داخلي عالٍ بين الفئات وتفاوت منخفض بين الفئات المختلفة، ناتجًا عن عوامل مثل الظلال، التشوهات، والتغيرات في الإضاءة، إلخ. وبالتالي، فإن تمثيل مميز للسمات يُعبر عن المعلومات الهيكلية الشاملة يُعد عنصرًا حاسمًا لوصف الكائن أو المشهد بدقة. ولتحقيق هذا الهدف، نقترح طريقة فعالة تُجمع من خلالها السمات الواعية بالسياق من أكثر مناطق الصورة صلة، مع مراعاة أهمية كل منطقة في التمييز بين الفئات الدقيقة، دون الحاجة إلى مربعات حدودية (bounding-box) أو تسميات للأجزاء المميزة. ويُستمد هذا النهج من التطورات الحديثة في تقنيات الانتباه الذاتي (self-attention) والشبكات العصبية الرسومية (GNNs)، حيث يتم دمج تحويل مميز للسمات يراعي العلاقات بين العناصر، مع تحسينه باستخدام آلية انتباه واعية بالسياق، بهدف تعزيز قدرة التمييز للسمات المنقولة ضمن عملية تعلم متكاملة (end-to-end). وقد تم تقييم نموذجنا على ثمانية مجموعات بيانات معيارية تتضمن كائنات دقيقة وتفاعلات بين البشر والكائنات، حيث تفوق على أفضل الطرق الحالية من حيث دقة التعرف بشكل ملحوظ.