HyperAIHyperAI
منذ 2 أشهر

التعرف على الأنواع ذات الذيل الطويل بحجم كبير في عالم مفتوح

Ziwei Liu; Zhongqi Miao; Xiaohang Zhan; Jiayun Wang; Boqing Gong; Stella X. Yu
التعرف على الأنواع ذات الذيل الطويل بحجم كبير في عالم مفتوح
الملخص

البيانات الحقيقية غالباً ما تتميز بتوزيع ذيل طويل ومفتوح. يجب على نظام التعرف العملي أن يصنف بين الفئات الرئيسية والثانوية، ويتعلم بشكل عام من حالات معروفة قليلة، ويعترف بالجديد عند مواجهة حالة لم يتم رؤيتها من قبل. نعرّف التعرف ذي الذيل الطويل والمفتوح (OLTR) بأنه التعلم من البيانات الموزعة بشكل طبيعي وتحسين دقة التصنيف على مجموعة اختبار متوازنة تشمل الفئات الرئيسية والثانوية والمفتوحة. يجب على OLTR التعامل مع تصنيف غير متوازن، والتعلم القليل النموذجي (few-shot learning)، والتعرف المجموعات المفتوحة في خوارزمية متكاملة واحدة، بينما تركز الأساليب الحالية للتصنيف فقط على جانب واحد وتقدم أداءً ضعيفاً عبر طيف الفئات بأكمله. التحديات الرئيسية هي كيفية مشاركة المعرفة البصرية بين الفئات الرئيسية والثانوية وكيفية تقليل الالتباس بين الفئات الثانوية والمجموعات المفتوحة. نطور خوارزمية OLTR متكاملة تقوم بتمثيل الصورة في فضاء خصائص بحيث يمكن للمفاهيم البصرية أن تتصل بسهولة ببعضها البعض بناءً على مقاييس تم تعلمها تحترم تصنيف العالم المغلق بينما تعترف بجدة العالم المفتوح. يجمع ما نسميه بالمدمج الديناميكي (dynamic meta-embedding) بين خاصية الصورة المباشرة وخواص الذاكرة المرتبطة بها، حيث يشير حجم الخاصية (feature norm) إلى درجة الاطلاع على الفئات المعروفة. في ثلاثة مجموعات بيانات كبيرة لـ OLTR جمعناها من بيانات ImageNet التي تركز على الأشياء، وبيانات Places التي تركز على المناظر الطبيعية، وبيانات MS1M التي تركز على الوجوه، أثبتت طريقتنا باستمرار أنها أفضل من أفضل الأساليب الحالية. الرمز البرمجي والبيانات والنماذج الخاصة بنا تمكّن البحث المستقبلي في مجال OLTR وهي متاحة للجمهور في https://liuziwei7.github.io/projects/LongTail.html.