il y a 9 jours

Vers l’avancée du Vision Transformer simple vers un modèle fondamental pour la télédétection

Di Wang, Qiming Zhang, Yufei Xu, Jing Zhang, Bo Du, Dacheng Tao, Liangpei Zhang

Résumé

Les modèles fondamentaux à grande échelle pour la vision ont réalisé des progrès significatifs dans les tâches visuelles sur les images naturelles, les transformateurs de vision étant le choix privilégié en raison de leur bonne capacité d’évolutivité et de leur expressivité. Toutefois, les modèles à grande échelle dans le domaine de la télédétection (RS) n’ont pas encore été suffisamment explorés. Dans ce travail, nous adoptons des transformateurs de vision simples comptant environ 100 millions de paramètres, et proposons pour la première fois des grands modèles visuels spécifiquement conçus pour les tâches de télédétection, tout en étudiant leur performance. Afin de traiter la taille importante et les objets orientés arbitrairement présents dans les images de télédétection, nous introduisons une nouvelle attention par fenêtres de taille variable et tournées, qui remplace l’attention complète originale des transformateurs. Cette approche permet de réduire de manière significative le coût computationnel et la consommation mémoire, tout en améliorant la représentation des objets grâce à l’extraction de contexte riche à partir des fenêtres diversifiées générées. Les expériences menées sur des tâches de détection montrent que notre modèle surpasser tous les états de l’art, atteignant un mAP de 81,24 % sur le jeu de données DOTA-V1.0. Les résultats obtenus par nos modèles sur des tâches de classification et de segmentation en aval sont également compétitifs par rapport aux méthodes avancées existantes. Des expériences supplémentaires mettent en évidence les avantages de nos modèles en termes de complexité computationnelle et d’efficacité des données lors de la transférabilité.