HyperAIHyperAI
vor 3 Monaten

Anchor Retouching via Model Interaction for Robust Object Detection in Aerial Images

Dong Liang, Qixiang Geng, Zongqi Wei, Dmitry A. Vorontsov, Ekaterina L. Kim, Mingqiang Wei, Huiyu Zhou
Anchor Retouching via Model Interaction for Robust Object Detection in Aerial Images
Abstract

Die Objektdetektion hat in der Computer Vision erhebliche Fortschritte gemacht. Die Detektion kleiner Objekte unter Berücksichtigung von Erscheinungsdegradation stellt eine herausragende Herausforderung dar, insbesondere bei luftgestützten Beobachtungen. Um ausreichend positive/negative Trainingsbeispiele für heuristische Trainingsansätze zu sammeln, richten die meisten Objektdetektoren vorgegebene Regionen (Anchors) ein, um die Intersection-over-Union (IoU) gegenüber den Ground-Truth-Daten zu berechnen. In diesem Kontext werden kleine Objekte häufig ignoriert oder falsch klassifiziert. In diesem Artikel präsentieren wir ein effektives Dynamic Enhancement Anchor (DEA)-Netzwerk, um einen neuartigen Trainingsbeispiel-Generator zu konstruieren. Im Gegensatz zu anderen state-of-the-art-Techniken nutzt das vorgeschlagene Netzwerk einen Sample-Discriminator, um einen interaktiven Auswahlprozess zwischen einer Anchor-basierten und einer Anchor-freien Einheit zu realisieren und damit geeignete Trainingsbeispiele zu generieren. Zudem verbessert eine mehrfach aufgebaute gemeinsame Trainingsschicht in Verbindung mit einer konservativen anchor-basierten Inferenzstrategie die Leistung des vorgeschlagenen Modells, während gleichzeitig die Rechenkomplexität reduziert wird. Das vorgeschlagene Verfahren unterstützt sowohl orientierte als auch horizontale Objektdetektionsaufgaben. Umfangreiche Experimente an zwei anspruchsvollen Luftbild-Benchmarks (nämlich DOTA und HRSC2016) zeigen, dass unsere Methode eine state-of-the-art-Leistung hinsichtlich Genauigkeit mit moderater Inferenzgeschwindigkeit und geringem Rechenaufwand beim Training erzielt. Auf DOTA übertrifft unser DEA-Net, das auf der Basisarchitektur von RoI-Transformer aufbaut, die fortschrittlichste Methode um 0,40 Prozentpunkte im mittleren Durchschnittspräzisionswert (mAP) bei der orientierten Objektdetektion mit einem schwächeren Backbone-Netzwerk (ResNet-101 gegenüber ResNet-152) und um 3,08 Prozentpunkte bei der horizontalen Objektdetektion mit identischem Backbone. Zudem erreicht unser DEA-Net, das auf der Basisarchitektur von ReDet basiert, mit 80,37 % den bisher besten Wert. Auf HRSC2016 übertrifft es das vorherige Spitzenmodell um 1,1 %, wobei lediglich drei horizontale Anchors verwendet werden.