HyperAIHyperAI

Command Palette

Search for a command to run...

Raumliche Transformationsentkopplung für orientierte Objektdetektion

Hongtian Yu Yunjie Tian Qixiang Ye Yunfan Liu

Zusammenfassung

Vision Transformers (ViTs) haben in Aufgaben des maschinellen Sehens bemerkenswerte Erfolge erzielt. Ihre Potenziale in rotationsempfindlichen Szenarien wurden jedoch bisher noch nicht ausreichend erschlossen, wobei dieser Einschränkung möglicherweise inhärent auf den fehlenden räumlichen Invarianz in der Datenweiterleitung zurückzuführen ist. In dieser Studie präsentieren wir einen neuartigen Ansatz, den wir Spatial Transform Decoupling (STD) nennen, der eine einfache, aber wirksame Lösung für die Orientierungsdetektion von Objekten mit ViTs bietet. Aufbauend auf gestapelten ViT-Blöcken nutzt STD getrennte Netzwerkzweige zur Vorhersage von Position, Größe und Winkel von Bounding Boxes und nutzt dadurch auf eine Aufteilungs-und-Beherrschen-Strategie die räumliche Transformationskapazität von ViTs effektiv aus. Darüber hinaus verstärkt STD die Merkmale innerhalb von Regionen von Interesse (RoIs) schrittweise, indem es kaskadierte Aktivierungsmasken (CAMs), die auf den regressierten Parametern basieren, aggregiert, was die Selbst-Attention-Mechanismen ergänzt. Ohne zusätzliche Komplexitäten erreicht STD state-of-the-art Ergebnisse auf Benchmark-Datensätzen wie DOTA-v1.0 (82,24 % mAP) und HRSC2016 (98,55 % mAP), was die Wirksamkeit des vorgeschlagenen Ansatzes belegt. Der Quellcode ist unter https://github.com/yuhongtian17/Spatial-Transform-Decoupling verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp