تعلم من بعضهم البعض لتصنيف أفضل: تعلم الانتباه المتبادل عبر الطبقات لتصنيف البصريات الدقيقة
التصنيف البصري الدقيق (FGVC) يُعدّ ذا قيمة كبيرة لكنه يُعدّ تحديًا كبيرًا. تكمن الصعوبة الرئيسية في FGVC في التشابه الداخلي بين الفئات، والتباين الداخلي داخل الفئة، ونقص البيانات التدريبية. علاوةً على ذلك، مع انتشار الشبكات العصبية التلافيفية العميقة (Deep Convolutional Neural Networks)، اعتمدت الأبحاث بشكل رئيسي على المعلومات الشكلية والمعجمية العميقة في تصنيف FGVC، بينما تُركت المعلومات السطحية والتفصيلية دون اهتمام. تُقدّم هذه الدراسة شبكة تعلم انتباه متبادل عبر الطبقات (CMAL-Net) لحل المشكلات المذكورة أعلاه. وبشكل محدد، تُنظر إلى الطبقات السطحية وحتى العميقة للشبكات العصبية التلافيفية على أنها "خبراء" يمتلكون معرفة بمنظورات مختلفة. نسمح لكل خبير بتقديم تنبؤ بفئة معينة، وتحديد منطقة انتباه تُشير إلى المُؤشّرات التي اكتشفها. وتُعتبر مناطق الانتباه وسيلة لنقل المعلومات بين الخبراء، مما يحقق ثلاث فوائد: (أ) مساعدة النموذج على التركيز على المناطق التمييزية؛ (ب) توفير بيانات تدريب إضافية؛ (ج) تمكين الخبراء من التعلم المتبادل لتحسين الأداء العام. وقد حققت شبكة CMAL-Net أداءً متقدمًا على مستوى الحالة الحالية (State-of-the-art) في ثلاث مجموعات بيانات تنافسية: FGVC-Aircraft، وStanford Cars، وFood-11.