متوافقة مع الكائن، وليس مع الصورة: تمثيل موحد متوافق مع الوضعية للاعتراف الدقيق

تُشكِّل التغيرات الدراماتيكية في المظهر الناجمة عن الوضعية تحديًا كبيرًا في التعرف الدقيق، وهو تحدي فشلت الأساليب الحديثة التي تستخدم آليات الانتباه أو الإحصاءات من الرتبة الثانية في معالجته بشكل كافٍ. عادةً ما تنقص الشبكات العصبية التلافيفية الحديثة (CNNs) فهم صريح للوضعية، وبدلاً من ذلك تختلط لديها الوضعية والمظهر. في هذا البحث، نقترح تمثيلًا موحدًا للأشياء يتم بناؤه من هرم من المناطق المُحاذاة للوضعية. بدلاً من تمثيل الأشياء بالمناطق المحاذية لمحور الصورة، يصف التمثيل المقترح المظهر بالنسبة للوضعية باستخدام بقع محاذية للوضعية تكون خصائصها مقاومة للتغيرات في الوضعية والحجم والدوران. نقترح خوارزمية تقوم بتقدير الوضعية وتشكيل التمثيل الموحد للأجسام كتوافق لخصائص المناطق المُحاذاة للوضعية على مستوى الهرم، والتي يتم إدخالها بعد ذلك إلى شبكة تصنيف. تتفوق الخوارزمية المقترحة على أداء الأساليب الأخرى، حيث تزيد نسبة الدقة على الحالة الحالية بأكثر من 2% في مجموعة البيانات الشائعة الاستخدام CUB-200 وبأكثر من 8% في مجموعة البيانات الأكبر NABirds. يشير فعالية هذا النموذج مقارنة بالأساليب المنافسة إلى الأهمية الحرجة لفصل الوضعية والمظهر لتحقيق تقدم مستمر في مجال التعرف الدقيق.请注意,对于科技文献中的专有名词,如 "CUB-200" 和 "NABirds" 数据集,通常会保留其英文原名以确保专业性和准确性。如果需要对这些名词进行阿拉伯语解释或翻译,请告知我具体要求。