الدمج الذكي للرؤى: تفاعل الميزات عالية الرتبة للتعرف البصري الدقيق
تقدم هذه الورقة منهجية جديدة لتصنيف الرؤية الدقيق (FGVC) من خلال استكشاف الشبكات العصبية الرسومية (GNNs) لتمكين التفاعلات عالية الرتبة للسمات، مع التركيز المحدد على بناء رسوم بيانية داخلية وخارجية للمنطقة. على عكس الأساليب السابقة في FGVC التي غالبًا ما تفصل بين السمات العالمية والمحليّة، يدمج منهجنا هذه السمات بشكل سلس أثناء التعلم من خلال الرسوم البيانية. حيث تُسجّل الرسوم البيانية بين المناطق الترابطات طويلة المدى لتمييز الأنماط العالمية، في حين تُعمّق الرسوم البيانية داخل المنطقة في التفاصيل الدقيقة ضمن مناطق معينة من الكائن من خلال استكشاف السمات التلافيفية عالية الأبعاد. تمثل الابتكار الرئيسي استخدام GNNs المشتركة مع آلية الانتباه مدمجة مع خوارزمية تبادل الرسائل Approximate Personalized Propagation of Neural Predictions (APPNP)، مما يعزز كفاءة انتقال المعلومات ويوفر تمييزًا أفضل ويُبسط بنية النموذج من أجل الكفاءة الحسابية. علاوة على ذلك، فإن إدخال اتصالات التردد (residual connections) يحسّن الأداء واستقرار التدريب. تُظهر التجارب الشاملة نتائج من الطراز الرائد على مجموعات بيانات معيارية لـ FGVC، مما يؤكد فعالية منهجنا. تُبرز هذه الدراسة الإمكانات الكبيرة للشبكات العصبية الرسومية في نمذجة التفاعلات عالية المستوى للسمات، مما يميزها عن الطرق السابقة في FGVC التي تركز عادةً على جانب واحد فقط من تمثيل السمات. يمكن الوصول إلى كود المصدر الخاص بنا من خلال الرابط التالي: https://github.com/Arindam-1991/I2-HOFI.