Raumliche Transformationsentkopplung für orientierte Objektdetektion

Vision Transformers (ViTs) haben in Aufgaben des maschinellen Sehens bemerkenswerte Erfolge erzielt. Ihre Potenziale in rotationsempfindlichen Szenarien wurden jedoch bisher noch nicht ausreichend erschlossen, wobei dieser Einschränkung möglicherweise inhärent auf den fehlenden räumlichen Invarianz in der Datenweiterleitung zurückzuführen ist. In dieser Studie präsentieren wir einen neuartigen Ansatz, den wir Spatial Transform Decoupling (STD) nennen, der eine einfache, aber wirksame Lösung für die Orientierungsdetektion von Objekten mit ViTs bietet. Aufbauend auf gestapelten ViT-Blöcken nutzt STD getrennte Netzwerkzweige zur Vorhersage von Position, Größe und Winkel von Bounding Boxes und nutzt dadurch auf eine Aufteilungs-und-Beherrschen-Strategie die räumliche Transformationskapazität von ViTs effektiv aus. Darüber hinaus verstärkt STD die Merkmale innerhalb von Regionen von Interesse (RoIs) schrittweise, indem es kaskadierte Aktivierungsmasken (CAMs), die auf den regressierten Parametern basieren, aggregiert, was die Selbst-Attention-Mechanismen ergänzt. Ohne zusätzliche Komplexitäten erreicht STD state-of-the-art Ergebnisse auf Benchmark-Datensätzen wie DOTA-v1.0 (82,24 % mAP) und HRSC2016 (98,55 % mAP), was die Wirksamkeit des vorgeschlagenen Ansatzes belegt. Der Quellcode ist unter https://github.com/yuhongtian17/Spatial-Transform-Decoupling verfügbar.