Progressive End-to-End Object Detection in crowded Scenes

In diesem Paper stellen wir einen neuen abfragbasierten Detektionsansatz für die Menschenansammlungsdetektion vor. Bisherige abfragbasierte Detektoren leiden unter zwei Nachteilen: Erstens werden für ein einzelnes Objekt mehrere Vorhersagen erzeugt, insbesondere in dicht besetzten Szenen; zweitens stagniert die Leistung bei zunehmender Tiefe des Dekodierungsstadiums. Durch die Eigenschaft der ein-zu-eins-Zuordnungsregel für die Etikettierung entwickeln wir eine progressive Vorhersagemethode, um diese Probleme zu lösen. Konkret wählen wir zunächst solche Abfragen aus, die eine hohe Wahrscheinlichkeit für korrekte positiv Vorhersagen aufweisen, und verfeinern anschließend die verbleibenden rauschhaften Abfragen basierend auf den bereits akzeptierten Vorhersagen. Experimente zeigen, dass unsere Methode die Leistung abfragbasierter Detektoren in dicht besetzten Szenen erheblich steigert. Mit unserer Methode erreicht Sparse RCNN auf dem anspruchsvollen CrowdHuman-Datensatz \cite{shao2018crowdhuman} eine Genauigkeit von 92,0\% $\text{AP}$, 41,4\% $\text{MR}^{-2}$ und 83,2\% $\text{JI}$, wodurch er die boxbasierte Methode MIP \cite{chu2020detection}, die speziell für die Behandlung dichter Szenen optimiert ist, übertrifft. Darüber hinaus erzielt die vorgeschlagene Methode, die robust gegenüber hoher Dichte ist, auch konsistente Verbesserungen auf mittel- und geringfügig besetzten Datensätzen wie CityPersons \cite{zhang2017citypersons} und COCO \cite{lin2014microsoft}. Der Quellcode wird öffentlich unter https://github.com/megvii-model/Iter-E2EDET bereitgestellt.