vor 9 Tagen

Vorankommen des Plain Vision Transformer hin zum Remote-Sensing-Grundmodell

Di Wang, Qiming Zhang, Yufei Xu, Jing Zhang, Bo Du, Dacheng Tao, Liangpei Zhang

Abstract

Großskalige visuelle Grundmodelle haben erhebliche Fortschritte bei visuellen Aufgaben auf natürlichen Bildern erzielt, wobei Vision-Transformer aufgrund ihrer hervorragenden Skalierbarkeit und Repräsentationsfähigkeit die bevorzugte Wahl darstellen. In der Fernerkundung (Remote Sensing, RS) sind große Modelle hingegen bisher noch nicht ausreichend erforscht. In diesem Artikel setzen wir auf einfache Vision-Transformer mit etwa 100 Millionen Parametern und unternehmen erstmals den Versuch, großskalige visuelle Modelle speziell für RS-Aufgaben zu entwickeln, und untersuchen deren Leistungsfähigkeit. Um die großen Bildgrößen und Objekte beliebiger Orientierungen in RS-Bildern effizient zu verarbeiten, schlagen wir eine neue rotierte, variabel dimensionierte Fenster-Attention vor, die die ursprüngliche volle Attention in Transformers ersetzt. Diese Methode reduziert den Rechenaufwand und den Speicherverbrauch erheblich und ermöglicht gleichzeitig eine verbesserte Objektrepräsentation durch die Extraktion reicher Kontextinformationen aus den generierten vielfältigen Fenstern. Experimente im Bereich der Objektdetektion zeigen, dass unser Modell alle aktuellen State-of-the-Art-Modelle übertrifft und eine mAP von 81,24 % auf dem DOTA-V1.0-Datensatz erreicht. Die Ergebnisse unserer Modelle bei nachgeschalteten Klassifikations- und Segmentierungsaufgaben demonstrieren zudem wettbewerbsfähige Leistung gegenüber bestehenden fortschrittlichen Methoden. Zusätzliche Experimente belegen zudem die Vorteile unserer Modelle hinsichtlich Rechenaufwandskomplexität und Daten-Effizienz im Transferlernen.