HyperAIHyperAI

Command Palette

Search for a command to run...

Vers l’avancée du Vision Transformer simple vers un modèle fondamental pour la télédétection

Di Wang Qiming Zhang Yufei Xu Jing Zhang Bo Du Dacheng Tao Liangpei Zhang

Résumé

Les modèles fondamentaux à grande échelle pour la vision ont réalisé des progrès significatifs dans les tâches visuelles sur les images naturelles, les transformateurs de vision étant le choix privilégié en raison de leur bonne capacité d’évolutivité et de leur expressivité. Toutefois, les modèles à grande échelle dans le domaine de la télédétection (RS) n’ont pas encore été suffisamment explorés. Dans ce travail, nous adoptons des transformateurs de vision simples comptant environ 100 millions de paramètres, et proposons pour la première fois des grands modèles visuels spécifiquement conçus pour les tâches de télédétection, tout en étudiant leur performance. Afin de traiter la taille importante et les objets orientés arbitrairement présents dans les images de télédétection, nous introduisons une nouvelle attention par fenêtres de taille variable et tournées, qui remplace l’attention complète originale des transformateurs. Cette approche permet de réduire de manière significative le coût computationnel et la consommation mémoire, tout en améliorant la représentation des objets grâce à l’extraction de contexte riche à partir des fenêtres diversifiées générées. Les expériences menées sur des tâches de détection montrent que notre modèle surpasser tous les états de l’art, atteignant un mAP de 81,24 % sur le jeu de données DOTA-V1.0. Les résultats obtenus par nos modèles sur des tâches de classification et de segmentation en aval sont également compétitifs par rapport aux méthodes avancées existantes. Des expériences supplémentaires mettent en évidence les avantages de nos modèles en termes de complexité computationnelle et d’efficacité des données lors de la transférabilité.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Vers l’avancée du Vision Transformer simple vers un modèle fondamental pour la télédétection | Articles | HyperAI