على القيم الذاتية للتجميع التغاير العالمي للتعرف البصري الدقيق

يُعد تصنيف الرؤية الدقيقة (FGVC) تحديًا كبيرًا نظرًا لصعوبة التقاط التباينات الدقيقة بين الفئات. أحد المسارات البحثية البارزة يستخدم طبقة التجميع التبايني العالمي (GCP) لتعلم تمثيلات قوية تعتمد على الإحصائيات من الدرجة الثانية، والتي يمكنها نمذجة الفروق بين الفئات بشكل فعّال. في ورقتنا السابقة المقدمة في مؤتمر، أظهرنا أن قطع القيم الذاتية الصغيرة للمصفوفة التباينية GCP يؤدي إلى تدفق تدرج أكثر سلاسة وتحسين الأداء على مجموعات بيانات كبيرة الحجم. ومع ذلك، عند تطبيق هذا النهج على مجموعات بيانات دقيقة، يؤدي قطع القيم الذاتية الصغيرة إلى فشل نموذج التعلم في التقارب. يتعارض هذا الملاحظة مع الافتراض الشائع بأن القيم الذاتية الصغيرة تمثل فقط معلومات ضوضائية وغير مهمة، وبالتالي فإن إهمالها ينبغي أن يكون له تأثير ضئيل على الأداء. لتشخيص هذا السلوك غير المعتاد، نقترح طريقتين لتحديد التأثير (attribution)، حيث تُظهر التصويرات الناتجة أن القيم الذاتية الصغيرة التي تبدو غير مهمة هي في الواقع حاسمة، لأنها تُعنى باستخلاص ميزات فئة مميزة. مستلهمين من هذا الملاحظة، نقترح فرعًا شبكيًا مخصصًا لتكبير أهمية القيم الذاتية الصغيرة. وبلا إدخال أي معلمات إضافية، يكفي هذا الفرع ببساطة مضاعفة القيم الذاتية الصغيرة، مما يحقق أداءً متقدمًا على مستوى الأداء (state-of-the-art) لطرق GCP على ثلاث مجموعات بيانات دقيقة. علاوةً على ذلك، يُظهر الأداء أيضًا تنافسية عالية مقارنة بأساليب أخرى لتصنيف الرؤية الدقيقة على مجموعات بيانات أكبر. يمكن الوصول إلى الكود من خلال الرابط التالي: \href{https://github.com/KingJamesSong/DifferentiableSVD}{https://github.com/KingJamesSong/DifferentiableSVD}.