Anpassung von Zentrum und Skalierungsvorhersage: Stabilere und genauere Ergebnisse

Die Erkennung von Fußgängern profitiert von der tiefen Lerntechnologie und erfährt in den letzten Jahren eine rasante Entwicklung. Die meisten Detektoren folgen dem allgemeinen Rahmen der Objekterkennung, also dem Einsatz von Standardboxen und einem zweistufigen Prozess. In jüngster Zeit wurden anchor-free und einstufige Detektoren in diesem Bereich eingeführt. Allerdings erreichen diese eine unzureichende Genauigkeit. Um sowohl die Einfachheit anchor-free Detektoren als auch die hohe Genauigkeit zweistufiger Ansätze zu kombinieren, schlagen wir einige Anpassungen an einem bestehenden Detektor, dem Center and Scale Prediction (CSP)-Modell, vor. Die Hauptbeiträge unserer Arbeit sind: (1) Wir verbessern die Robustheit von CSP und machen es trainingsfreundlicher. (2) Wir stellen eine neuartige Methode zur Vorhersage der Breite vor, die sogenannte „width compression“-Methode. (3) Wir erzielen auf dem CityPersons-Benchmark die zweitbeste Leistung, nämlich 9,3 % log-average miss rate (MR) auf der „reasonable“-Menge, 8,7 % MR auf der „partial“-Menge und 5,6 % MR auf der „bare“-Menge, was zeigt, dass ein anchor-free und einstufiger Detektor dennoch eine hohe Genauigkeit erreichen kann. (4) Wir untersuchen einige Fähigkeiten von Switchable Normalization, die in der ursprünglichen Veröffentlichung nicht erwähnt wurden.