الكشف التدريجي عن الكائنات من البداية إلى النهاية في المشاهد المزدحمة

في هذه الورقة، نقترح إطارًا جديدًا للكشف عن الحشود يستند إلى الاستفسارات (query-based). تعاني النماذج القائمة على الاستفسارات من عيبين رئيسيين: أولاً، يتم استنتاج تنبؤات متعددة لجسم واحد، خاصة في المشاهد المزدحمة؛ ثانيًا، تصل أداء النموذج إلى حد تشبع مع زيادة عمق مرحلة التفكيك (decoding). وبفضل طبيعة قاعدة تعيين التسمية ذات إلى واحد (one-to-one label assignment)، نقترح طريقة تنبؤ تدريجية (progressive predicting) لمعالجة هذه المشكلات. بشكل محدد، نبدأ بتحديد الاستفسارات المقبولة التي تميل إلى إنتاج تنبؤات صحيحة (true positive)، ثم نُحسّن الاستفسارات الضوضائية المتبقية بناءً على التنبؤات المقبولة السابقة. تُظهر التجارب أن طريقة العمل لدينا تُعزز بشكل كبير أداء النماذج القائمة على الاستفسارات في المشاهد المزدحمة. وباستخدام هذه الطريقة، تحقق Sparse RCNN أداءً بنسبة 92.0% في مقياس $\text{AP}$، و41.4% في مقياس $\text{MR}^{-2}$، و83.2% في مقياس $\text{JI}$ على مجموعة بيانات التحدي CrowdHuman \cite{shao2018crowdhuman}، متفوقةً على الطريقة القائمة على المربعات (box-based) MIP \cite{chu2020detection} التي تُعدّ مخصصة لمعالجة السيناريوهات المزدحمة. علاوةً على ذلك، فإن الطريقة المقترحة، التي تتمتع بقدرة عالية على التحمل في ظل تراكم الحشود، تُحقق تحسينات متسقة أيضًا على مجموعات بيانات متوسطة وخفيفة التزاحم مثل CityPersons \cite{zhang2017citypersons} وCOCO \cite{lin2014microsoft}. سيتم إتاحة الشيفرة المصدرية للعامة عبر الرابط: https://github.com/megvii-model/Iter-E2EDET.