WiderPerson: مجموعة بيانات متنوعة للكشف الكثيف عن المشاة في البيئة الطبيعية

لقد حققت الكشف عن المشاة تقدماً ملحوظاً بفضل توفر مجموعات بيانات معيارية موجودة حالياً. ومع ذلك، توجد فجوة في تنوع وكثافة البيانات بين متطلبات العالم الحقيقي ومقاييس الكشف عن المشاة الحالية: 1) تُجمع معظم مجموعات البيانات الحالية من مركبات تسير في سيناريوهات حركة مرور منتظمة، مما يؤدي عادةً إلى قلة التنوع؛ 2) لا تُمثل سيناريوهات الحشود التي تتسم بمشاة متداخلة بشكل كبير بشكل كافٍ، ما ينتج عنه كثافة منخفضة. ولتقليل هذه الفجوة وتمكين الأبحاث المستقبلية في مجال الكشف عن المشاة، نقدم مجموعة بيانات كبيرة ومتنوعة تُسمى WiderPerson، مخصصة للكشف عن المشاة بكثافة عالية في البيئات الطبيعية. تتضمن هذه المجموعة خمسة أنواع من التصنيفات في مجموعة واسعة من السيناريوهات، ولا تقتصر بعد الآن على سيناريوهات المرور. يضمّن المجموعة 13,382 صورة مع 399,786 تسمية، أي ما يعادل 29.87 تسمية لكل صورة، مما يعني أن هذه المجموعة تحتوي على مشاة كثيفة تتميز بأنواع مختلفة من التداخل. وبالتالي، فإن المشاة في المجموعة المقترحة تمثل تحدياً كبيراً نظراً للتغيرات الكبيرة في السيناريو والتداخل، ما يجعلها مناسبة لتقييم كفاءة نماذج الكشف عن المشاة في البيئات الواقعية. قمنا بتمثيل نموذجين أساسيين (baselines) لمقاييس الكشف عن المشاة الجديدة، وهما نموذج Faster R-CNN المُحسّن ونموذج RetinaNet الأصلي. تم إجراء عدة تجارب على مجموعات بيانات سابقة مثل Caltech-USA وCityPersons لتحليل قدرة المجموعة المقترحة على التعميم، وتم تحقيق أداءً متفوقاً على هذه المجموعات السابقة دون الحاجة إلى أي إضافات تقنية (bells and whistles). وأخيراً، قمنا بتحليل الحالات الشائعة للفشل، ووجدنا أن قدرة نموذج الكشف عن المشاة في التصنيف تحتاج إلى تحسين لخفض معدلات الإنذارات الخاطئة وفقدان الكشف. تُتاح المجموعة المقترحة عبر الرابط التالي: http://www.cbsr.ia.ac.cn/users/sfzhang/WiderPerson