HyperAIHyperAI
منذ 2 أشهر

Forest R-CNN: الكشف عن الأشياء ذات القائمة الطويلة والمفردات الكبيرة وتقسيم النماذج الخاصة بها

Wu, Jialian ; Song, Liangchen ; Wang, Tiancai ; Zhang, Qian ; Yuan, Junsong
Forest R-CNN: الكشف عن الأشياء ذات القائمة الطويلة والمفردات الكبيرة وتقسيم النماذج الخاصة بها
الملخص

رغم النجاح السابق في تحليل الأشياء، لا يزال اكتشاف وتقسيم عدد كبير من فئات الأشياء ذات التوزيع الطويل الذيل مشكلة صعبة ولم يتم دراستها بشكل كافٍ. بالنسبة للمصنف ذو المفردات الكبيرة، فإن فرصة الحصول على نواتج منطقية ضوضائية (logits) أعلى بكثير، مما يمكن أن يؤدي بسهولة إلى التعرف الخاطئ. في هذا البحث، نستغل المعرفة السابقة حول العلاقات بين فئات الأشياء لجمع الفئات الدقيقة في فئات أعمّ وأشمل، وبناء شجرة تصنيف مسؤولة عن تحليل مثال الشيء إلى فئة دقيقة عبر فئة الوالد الخاصة به. في شجرة التصنيف، نظرًا لقلة عدد عقد فئة الوالد بشكل كبير، تكون النواتج المنطقية لديهم أقل ضوضاء ويمكن استخدامها لقمع النواتج المنطقية الخاطئة أو الضوضائية الموجودة في عقد الفئات الدقيقة. بما أن طريقة بناء فئة الوالد ليست فريدة، فقد قمنا أيضًا ببناء عدة أشجار لتشكيل غابة تصنيف حيث تساهم كل شجرة بصوتها في التصنيف الدقيق. للحد من التعلم غير المتوازن الناجم عن الظاهرة الطويلة الذيل (long-tail)، نقترح طريقة إعادة العينة البسيطة والفعالة NMS Resampling لإعادة توازن توزيع البيانات. يمكن لمETHODنا الذي يُطلق عليه Forest R-CNN أن يعمل كوحدة إدراج سهلة التطبيق يمكن تطبيقها على معظم نماذج التعرف على الأشياء للتعرف على أكثر من 1000 فئة. تم إجراء تجارب واسعة النطاق على مجموعة بيانات LVIS ذات المفردات الكبيرة. بالمقارنة مع الأساس Mask R-CNN، يعزز Forest R-CNN الأداء بشكل كبير بمعدلات دقة AP بنسبة 11.5٪ و3.9٪ على الفئات النادرة والفئات العامة على التوالي. بالإضافة إلى ذلك، حققنا أفضل النتائج الحالية على مجموعة بيانات LVIS. الرمز متاح على https://github.com/JialianW/Forest_RCNN.请注意,为了保持专业性和准确性,我在翻译中保留了某些专有名词的英文形式,如“logits”、“NMS Resampling”、“Mask R-CNN”和“Forest R-CNN”。这些术语在阿拉伯语科技文献中通常会直接使用英文。