المحولات العلاقاتية الموجهة بالجزء للتمييز البصري الدقيق

التعرف البصري الدقيق هو عملية تصنيف الكائنات ذات المظهر البصري المشابه إلى فئات فرعية، وقد حقق تقدماً كبيراً مع تطور الشبكات العصبية العميقة (CNNs). ومع ذلك، ما يزال التعامل مع الفروق الدقيقة بين الفئات الفرعية المختلفة يمثل تحدياً. في هذا البحث، نقترح حل هذه المشكلة ضمن إطار موحد من خلال جوانب متعددة، ألا وهي: بناء العلاقات بين المستويات المميزة، وتحديد السمات المميزة على مستوى الأجزاء. ويُسمى هذا الإطار "المحولات ذات الارتباط الموجهة بالجزء" (PART)، والذي يهدف إلى تعلم السمات الجزئية المميزة باستخدام وحدة اكتشاف تلقائية للأجزاء، واستكشاف العلاقات الجوهرية باستخدام وحدة تحويل سمات عن طريق تكييف نماذج المحولات (Transformer) المستخدمة في مجال معالجة اللغة الطبيعية. وتُكتشف وحدة اكتشاف الأجزاء بشكل فعّال المناطق المميزة التي تتوافق بشكل عالٍ مع عملية الانحدار التدريجي (الانحدار التنازلي). ثم تقوم الوحدة الثانية لتحويل السمات ببناء علاقات بين التضمين العالمي والتكاميل الجزئية المتعددة، مما يعزز التفاعلات المكانية بين البكسلات المعنوية. علاوةً على ذلك، لا تعتمد الطريقة المقترحة على فروع إضافية للأجزاء أثناء عملية الاستدلال، وتُحقّق أداءً منافساً لأفضل النماذج الحالية على ثلاث معايير شائعة لتمييز الكائنات الدقيقة. وأظهرت النتائج التجريبية والتصورات القابلة للتفسير فعالية النهج المقترح. يمكن الاطلاع على الكود من خلال الرابط: https://github.com/iCVTEAM/PART.