EnGraf-Net: شبكة فرعية متعددة الحُرُوف مع تداخل دقيق-خامس للوظيفة التصنيفية

يمكن للنماذج المصنفة بدقة عالية التركيز الصريح على التفاصيل ذات الصلة التي تساعد في التمييز بين الفئات المتشابهة للغاية، خاصةً عندما يكون التباين الداخلي للصفة مرتفعًا والتباين بين الصفات منخفضًا بالنسبة لمجموعة بيانات معينة. تعتمد معظم هذه النماذج على ملاحظات الأجزاء باستخدام مربعات حدودية أو مواقع أجزاء أو سمات نصية لتعزيز أداء التصنيف، بينما تستخدم نماذج أخرى تقنيات معقدة لاستخراج خريطة الانتباه تلقائيًا. نفترض أن النهج القائم على الأجزاء كطريقة تقطيع تلقائية يعاني من فقدان تمثيل للخصائص المحلية، والتي تُعد أساسية للتفرقة بين الكائنات المتشابهة. في حين أن التصنيف بدقة عالية يسعى إلى التعرف على "الورقة" في الرسم البياني، فإن البشر يعترفون بالكائنات أيضًا من خلال إقامة ارتباطات معنوية. في هذه الورقة، نستخدم الارتباطات المعنوية المُنظمة على شكل هرم (تصنيف تراتبي) كإشارات مراقبة، ونُطبّقها في نموذج شبكي عصبي عميق يعمل بطريقة نهائية إلى نهاية (end-to-end) يُسمى EnGraf-Net. أظهرت التجارب الواسعة على ثلاث مجموعات بيانات معروفة: Cifar-100 وCUB-200-2011 وFGVC-Aircraft، تفوق EnGraf-Net على العديد من النماذج المصنفة بدقة عالية، وتنافس النماذج الأحدث والأفضل دون استخدام أي تقنية تقطيع أو ملاحظات يدوية.