Ein auf Rangfolge basierender, ausgewogener Verlustfunktion, der Klassifikation und Lokalisierung in der Objekterkennung vereint

Wir schlagen eine durchschnittliche Lokalisierungs-Recall-Precision-(aLRP)-Verlustfunktion vor, eine einheitliche, beschränkte, ausgewogene und rangbasierte Verlustfunktion für sowohl Klassifikations- als auch Lokalisierungsaufgaben im Objektdetektionsbereich. aLRP erweitert die Lokalisierungs-Recall-Precision-(LRP)-Leistungsmetrik (Oksuz et al., 2018), die sich an der Art orientiert, wie der Average Precision (AP)-Verlust die Präzision in eine rangbasierte Verlustfunktion für Klassifikation erweitert (Chen et al., 2020). aLRP weist folgende herausragende Vorteile auf: (i) aLRP ist die erste rangbasierte Verlustfunktion, die sowohl für Klassifikations- als auch für Lokalisierungsaufgaben geeignet ist. (ii) Durch die Verwendung von Rangfolgen für beide Aufgaben erzwingt aLRP natürlicherweise eine hochwertige Lokalisierung bei hoher Präzision bei der Klassifikation. (iii) aLRP gewährleistet eine beweisbare Balance zwischen positiven und negativen Instanzen. (iv) Im Vergleich zu durchschnittlich etwa 6 Hyperparametern in den Verlustfunktionen modernster Detektoren verfügt aLRP nur über einen einzigen Hyperparameter, den wir in der Praxis nicht optimiert haben. Auf dem COCO-Datensatz verbessert aLRP seinen rangbasierten Vorgänger, den AP-Verlust, um bis zu etwa 5 AP-Punkte, erreicht eine AP von 48,9 ohne Testzeit-Augmentation und übertrifft alle Ein-Phasen-Detektoren. Der Quellcode ist verfügbar unter: https://github.com/kemaloksuz/aLRPLoss.