Lernen hochpräziser Bounding Boxes für rotierte Objektdetektion mittels Kullback-Leibler-Divergenz

Bestehende Detektoren für rotierte Objekte stammen überwiegend aus dem Paradigma der horizontalen Detektion, da letzteres sich zu einem gut entwickelten Forschungsfeld weiterentwickelt hat. Diese Detektoren erweisen sich jedoch als schwierig, insbesondere bei hochpräziser Objektdetektion, aufgrund der Beschränkungen im derzeitigen Entwurf der Regressionsverlustfunktion – insbesondere für Objekte mit großem Aspektverhältnis. Aus der Perspektive, dass die horizontale Detektion ein Spezialfall der rotierten Objektdetektion darstellt, motiviert uns dieser Ansatz, den Entwurf der Regressionsverlustfunktion für Rotation von einem induktiven zu einem deduktiven Ansatz zu verändern, unter Berücksichtigung der Beziehung zwischen Rotation und horizontaler Detektion. Wir zeigen, dass eine zentrale Herausforderung darin besteht, die gekoppelten Parameter im Regressionsverlust dynamisch und synergetisch zu modulieren, sodass sich die geschätzten Parameter während der gemeinsamen dynamischen Optimierung adaptiv beeinflussen können. Konkret transformieren wir zunächst die rotierte Umgebungsschranke in eine zweidimensionale Gauß-Verteilung und berechnen dann die Kullback-Leibler-Divergenz (KLD) zwischen diesen Verteilungen als Regressionsverlust. Durch die Analyse der Gradienten jedes Parameters zeigen wir, dass die KLD (und ihre Ableitungen) die Parametergradienten dynamisch anhand der Objektmerkmale anpassen kann. Insbesondere passt sie die Bedeutung (Gewichtung des Gradienten) des Winkelparameters an das Aspektverhältnis an. Dieses Mechanismus ist für hochpräzise Detektion von entscheidender Bedeutung, da bereits kleine Winkelabweichungen bei Objekten mit großem Aspektverhältnis zu erheblichen Genauigkeitsverlusten führen können. Noch wichtiger ist, dass wir nachweisen, dass die KLD skaleninvariant ist. Darüber hinaus zeigen wir, dass der KLD-Verlust in die gängige $l_n$-Norm-Verlustfunktion für die horizontale Detektion degeneriert werden kann. Experimentelle Ergebnisse auf sieben Datensätzen mit verschiedenen Detektoren belegen eine konsistente Überlegenheit, und der Quellcode ist unter https://github.com/yangxue0827/RotationDetection und https://github.com/open-mmlab/mmrotate verfügbar.