التعلم من الطرف إلى الطرف لترميز متجه فيشر للخصائص الجزئية في التعرف الدقيق

تُظهر النهج القائمة على الأجزاء لتمييز الدقيق نتائج غير متوقعة مقارنة بالطرق العالمية، على الرغم من التركيز الصريح على التفاصيل الصغيرة التي تكون ذات صلة بتمييز الفئات المتشابهة للغاية. نفترض أن النهج القائمة على الأجزاء تعاني من نقص في تمثيل الميزات المحلية، التي تكون غير حساسة لترتيب الأجزاء، ويمكنها التعامل بشكل مناسب مع عدد متغير من الأجزاء المرئية. فترتيب الأجزاء هو أمر اصطناعي غالبًا ما يُعطى فقط من خلال التسميات الحقيقية (ground-truth)، بينما تؤدي تغيرات الزاوية والانسداد إلى ظهور أجزاء غير مرئية. ولذلك، نقترح دمج ترميز متجه فيشر (Fisher vector) للميزات الجزئية داخل الشبكات العصبية التلافيفية (convolutional neural networks). وتحدد معاملات هذا الترميز باستخدام خوارزمية EM عبر الإنترنت بشكل مشترك مع معاملات الشبكة العصبية، مما يوفر تقديرات أكثر دقة من الدراسات السابقة. ونُظهر أن نهجنا يُحسّن من دقة النماذج الحالية على ثلاث قواعد بيانات تصنيف لطيور.