Dynamisches Ankerlernen für die Erkennung beliebig orientierter Objekte

Arbitrary-oriented objects erscheinen häufig in natürlichen Szenen, Luftbildern und Fernerkundungsbildern. Daher hat die Erkennung von beliebig ausgerichteten Objekten erhebliche Aufmerksamkeit gefunden. Viele derzeitige Rotationsdetektoren verwenden eine Vielzahl von Ankers (Anchors) mit verschiedenen Ausrichtungen, um eine räumliche Ausrichtung mit den Ground-Truth-Boxen zu erreichen. Danach wird der Schnittmenge-Quotient (Intersection-over-Union, IoU) angewendet, um die positiven und negativen Kandidaten für das Training zu selektieren. Allerdings beobachten wir, dass die ausgewählten positiven Ankers nicht immer genaue Erkennungen nach der Regression garantieren können, während einige negative Stichproben eine präzise Lokalisierung erreichen können. Dies zeigt, dass die Bewertung der Ankers durch den IoU nicht angemessen ist und dies zu einer Inkonsistenz zwischen der Klassifizierungsvertrauenswürdigkeit und der Lokalisierungsgenauigkeit führt. In dieser Arbeit schlagen wir eine Methode des dynamischen Ankerlernens (Dynamic Anchor Learning, DAL) vor, die den neu definierten Übereinstimmungsgrad verwendet, um das Lokalisierungspotential der Ankers umfassend zu bewerten und einen effizienteren Label-Zuordnungsprozess durchzuführen. Auf diese Weise kann der Detektor hochwertige Ankers dynamisch auswählen, um eine genaue Objekterkennung zu erreichen, und die Diskrepanz zwischen Klassifizierung und Regression wird gemindert. Mit dem neu eingeführten DAL erreichen wir überlegene Erkennungsleistung für beliebig ausgerichtete Objekte mit nur wenigen horizontal vorgegebenen Ankers. Experimentelle Ergebnisse an drei Fernerkundungsdatensätzen HRSC2016, DOTA und UCAS-AOD sowie einem Szenentextdatensatz ICDAR 2015 zeigen, dass unsere Methode im Vergleich zum Basismodell erhebliche Verbesserungen erzielt. Darüber hinaus ist unser Ansatz auch allgemein anwendbar für die Objekterkennung unter Verwendung von horizontalen Begrenzungsboxen (Bounding Box). Der Code und die Modelle sind unter https://github.com/ming71/DAL verfügbar.