شبكة نموذج السمات للتعلم في أي حالة

التصنيف الصوري لأي عدد من العينات (Any-shot image classification) يسمح بتمييز فئات جديدة باستخدام عينات قليلة أو حتى لا توجد عينات على الإطلاق. فيما يتعلق بمهمة التعلم بدون عينات (zero-shot learning)، أثبتت الصفات البصرية أنها تلعب دورًا مهمًا، بينما في نظام القليل من العينات (few-shot regime)، لم يتم استكشاف تأثير الصفات بشكل كافٍ. لنقل المعرفة القائمة على الصفات بشكل أفضل من الفئات المعروفة إلى الفئات غير المعروفة، نعتقد أن تمثيل صورة يدمج قدرة تحديد موقع الصفات سيكون مفيدًا للتصنيف الصوري بأي عدد من العينات، أي التعلم بدون عينات والتعلم بالقليل من العينات.لتحقيق هذا الهدف، نقترح إطارًا جديدًا لتعلم التمثيل يتعلم الخصائص العالمية والمحلية المميزة بشكل مشترك باستخدام فقط الصفات على مستوى الفئة. بينما يقوم طبقة التضمين البصري-الدلالية (visual-semantic embedding layer) بتعلم الخصائص العالمية، يتم تعلم الخصائص المحلية عبر شبكة النماذج الأولية للصفات (attribute prototype network) التي تقوم بالتراجع عن الصفات وفك ارتباطها من الخصائص الوسيطة بشكل متزامن. بالإضافة إلى ذلك، نقدم وحدة تقريب (zoom-in module) تحدد وتقص الأجزاء المعلوماتية في الصورة لتحفيز الشبكة على تعلم الخصائص المعلوماتية بشكل صريح.نظهر أن تمثيل الصور الذي تم تعزيزه بالموقع المحلي لدينا يحقق حالة جديدة متفوقة في مقاييس صعبة مثل CUB وAWA2 وSUN. كفائدة إضافية، يشير نموذجنا إلى الأدلة البصرية للصفات في الصورة، مما يؤكد القدرة المحسنة لتحديد موقع الصفات في تمثيل صورتنا. يتم تقييم تحديد موقع الصفات كمياً باستخدام شروح الحقيقة الأرضية للأجزاء (ground truth part annotations)، وكيفياً باستخدام الرسوم البيانية (visualizations)، ومن خلال دراسات مستخدم جيدة التصميم.