HyperAIHyperAI
vor 2 Monaten

Generalisierte Focal Loss V2: Lernen zuverlässiger Lokalisierungsqualitätsschätzungen für dichte Objekterkennung

Li, Xiang ; Wang, Wenhai ; Hu, Xiaolin ; Li, Jun ; Tang, Jinhui ; Yang, Jian
Generalisierte Focal Loss V2: Lernen zuverlässiger Lokalisierungsqualitätsschätzungen für dichte Objekterkennung
Abstract

Die Lokalisierungsqualitätsschätzung (LQE) ist in der jüngsten Entwicklung dichter Objekterkennungssysteme von entscheidender Bedeutung und sehr beliebt, da sie genaue Rangfolgebewertungen liefern kann, die den Prozess der Nicht-Maximalen Unterdrückung (Non-Maximum Suppression, NMS) unterstützen und die Erkennungsleistung verbessern. Die gängige Praxis besteht darin, dass die meisten existierenden Methoden LQE-Bewertungen durch herkömmliche Faltungsmerkmale vorhersagen, die mit der Objektklassifikation oder der Bounding-Box-Regression geteilt werden. In dieser Arbeit erforschen wir eine vollkommen neue und andere Perspektive zur Durchführung der LQE – basierend auf den gelernten Verteilungen der vier Parameter der Bounding Box. Diese Bounding-Box-Verteilungen wurden in GFLV1 als "Allgemeine Verteilung" eingeführt und beschreiben die Unsicherheit der vorhergesagten Bounding Boxes gut. Diese Eigenschaft macht die Verteilungsstatistik einer Bounding Box stark mit ihrer tatsächlichen Lokalisierungsqualität korreliert. Speziell zeigt sich, dass eine Bounding-Box-Verteilung mit einem scharfen Peak in der Regel einer hohen Lokalisierungsqualität entspricht, und umgekehrt. Indem wir diese enge Korrelation zwischen Verteilungsstatistik und tatsächlicher Lokalisierungsqualität nutzen, entwickeln wir einen erheblich leichten verteilungsgeleiteten Qualitätsprädiktor (Distribution-Guided Quality Predictor, DGQP) für eine zuverlässige LQE basierend auf GFLV1, was GFLV2 hervorbringt. Nach unserem besten Wissen ist dies der erste Versuch im Bereich der Objekterkennung, eine hoch relevante statistische Darstellung zu verwenden, um die LQE zu erleichtern. Ausführliche Experimente belegen die Effektivität unserer Methode. Besonders auffällig ist, dass GFLV2 (ResNet-101) eine AP von 46.2 bei 14.6 FPS erreicht, was den bisherigen Stand der Technik ATSS-Baseline (43.6 AP bei 14.6 FPS) um absolut 2.6 AP auf COCO {\tt test-dev} übertrifft, ohne dabei Effizienz im Training oder bei der Inferenz zu opfern. Der Quellcode wird unter https://github.com/implus/GFocalV2 verfügbar sein.