HyperAIHyperAI
منذ 2 أشهر

اكتشاف عشرين ألف فئة باستخدام الإشراف على مستوى الصورة

Zhou, Xingyi ; Girdhar, Rohit ; Joulin, Armand ; Krähenbühl, Philipp ; Misra, Ishan
اكتشاف عشرين ألف فئة باستخدام الإشراف على مستوى الصورة
الملخص

المستشعرات الحالية للكشف عن الأشياء محدودة في حجم المفردات بسبب صغر نطاق مجموعات البيانات الخاصة بالكشف. من ناحية أخرى، تقوم تصنيفات الصور بالاستدلال حول مفردات أكبر بكثير، حيث تكون مجموعات بياناتها أكبر وأسهل في جمعها. نقترح نظام Detic، الذي يقوم ببساطة بتدريب تصنيفات الكاشف على بيانات تصنيف الصور، مما يوسع المفردات التي يمكن للكاشف التعامل معها إلى عشرات الآلاف من المفاهيم. على عكس الأعمال السابقة، لا يحتاج Detic إلى خطط تعيين معقدة لربط تسميات الصور بالصناديق بناءً على التوقعات النموذجية، مما يجعله أسهل بكثير في التنفيذ وتوافقه مع مجموعة متنوعة من هياكل الكشف والأساسيات (backbones). تظهر نتائجنا أن Detic ينتج كاشفات ممتازة حتى للأصناف التي ليس لديها تسميات صناديق. فهو يتفوق على الأعمال السابقة في كل من مقاييس الكشف ذات المفردات المفتوحة وكشف الذيل الطويل (long-tail detection). يوفر Detic زيادة قدرها 2.4 نقطة في دقة الـ mAP لجميع الأصناف و8.3 نقطة في دقة الـ mAP للأصناف الجديدة على مقاييس الكشف LVIS ذات المفردات المفتوحة. وعلى مقاييس LVIS القياسية، يصل Detic إلى دقة 41.7 نقطة في الـ mAP عند تقييمه على جميع الأصناف أو الأصناف النادرة فقط، وبالتالي إغلاق الفجوة في أداء فئات الأشياء ذات العينات القليلة. وللمرة الأولى، نقوم بتدريب كاشف باستخدام جميع فئات ImageNet البالغ عددها واحد وعشرون ألفًا ونوضح أنه يمكنه التعميم إلى مجموعات بيانات جديدة دون الحاجة إلى إعادة التuning الدقيق (finetuning). يمكن الحصول على الرمز البرمجي من \url{https://github.com/facebookresearch/Detic}.

اكتشاف عشرين ألف فئة باستخدام الإشراف على مستوى الصورة | أحدث الأوراق البحثية | HyperAI