NMS-Loss: Lernen mit Nicht-Maximaler Unterdrückung für die Erkennung von Menschenmengen

Die Nicht-Maximum-Suppression (NMS) ist für die Objekterkennung von entscheidender Bedeutung und beeinflusst die Bewertungsergebnisse durch die Einbeziehung von Falsch-Positiven (FP) und Falsch-Negativen (FN), insbesondere in Szenen mit Menschenansammlungen und Verdeckung. In diesem Paper untersuchen wir das Problem einer schwachen Verbindung zwischen den Trainingszielen und den Bewertungsmetriken, das durch NMS verursacht wird, und stellen eine neuartige NMS-Loss-Funktion vor, die es ermöglicht, den NMS-Prozess end-to-end zu trainieren, ohne zusätzliche Netzwerkparameter einzuführen. Unsere NMS-Loss bestraft zwei Fälle: einmal, wenn FP nicht unterdrückt werden, und zum anderen, wenn FN fälschlicherweise eliminiert werden. Konkret schlagen wir eine Pull-Loss vor, die Vorhersagen mit demselben Ziel näher zueinander zieht, sowie eine Push-Loss, die Vorhersagen mit unterschiedlichen Zielen voneinander wegschiebt. Experimentelle Ergebnisse zeigen, dass unser Detektor, NMS-Ped genannt, mit Hilfe der NMS-Loss beeindruckende Leistungen erzielt: eine Miss-Rate von 5,92 % auf dem Caltech-Datensatz und 10,08 % auf dem CityPersons-Datensatz – beides Ergebnisse, die die der derzeit besten Konkurrenten übertrifft.