التفاعل من الدرجة العالية للتصنيف البصري الدقيق المُدرَّب ضعيفًا
تصنيف البصرية الدقيقة (FGVC) يُعد مهمة صعبة نظرًا للتفاوت الكبير داخل الفئات الفرعية والتفاوت الصغير بين الفئات الفرعية. تتناول الدراسات الحديثة هذه المهمة بطريقة مراقبة ضعيفة دون استخدام تسميات الأجزاء المقدمة من الخبراء. من بين هذه الطرق، تمثل الطرق القائمة على التجميع الثنائي (bilinear pooling) إحدى الفئات الرئيسية لحساب التفاعل بين الميزات العميقة، وقد أظهرت فعالية عالية. ومع ذلك، تركز هذه الطرق بشكل رئيسي على الارتباطات داخل طبقة معينة، وتجعل من التفاعلات العالية بين طبقات متعددة تُهمل إلى حد كبير. في هذه الدراسة، نجادل بأن أخذ التفاعلات العالية بين الميزات المستمدة من طبقات متعددة في الاعتبار يمكن أن يساعد في تعلم ميزات دقيقة أكثر تميزًا. ولتحقيق ذلك، نقترح طريقة تُسمى التفاعل من الدرجة العالية (HOI) لتصنيف البصرية الدقيقة. في طريقة HOI، نُدخل تجميعًا ثلاثيًا عبر الطبقات بكفاءة لحساب التفاعل من الدرجة الثالثة بين ثلاث طبقات مختلفة. ثم يتم دمج التفاعلات من الدرجة الثالثة المختلفة الناتجة عن توليفات متنوعة لتكوين التمثيل النهائي. تُنتج طريقة HOI تمثيلات أكثر تميزًا، ويمكن دمجها بسهولة مع تقنيتين شائعتين هما آلية الانتباه (attention mechanism) ووظيفة الخسارة الثلاثية (triplet loss)، مما يحقق تحسينًا مترابطًا. أظهرت التجارب الواسعة التي أُجريت على أربع مجموعات بيانات لتصنيف البصرية الدقيقة تفوقًا كبيرًا لطريقتنا مقارنة بالطرق القائمة على التجميع الثنائي، كما أثبتت أن الطريقة المقترحة تحقق الحد الأقصى من الأداء الحالي في المجال.