HyperAIHyperAI
il y a 17 jours

AerialFormer : Transformer à multi-résolution pour la segmentation d'images aériennes

Kashu Yamazaki, Taisei Hanyu, Minh Tran, Adrian de Luis, Roy McCann, Haitao Liao, Chase Rainwater, Meredith Adkins, Jackson Cothren, Ngan Le
AerialFormer : Transformer à multi-résolution pour la segmentation d'images aériennes
Résumé

La segmentation d'images aériennes est une segmentation sémantique vue de haut, qui présente plusieurs caractéristiques difficiles à gérer, telles qu’un déséquilibre marqué entre les objets en premier plan et le fond, un arrière-plan complexe, une hétérogénéité intra-classe, une homogénéité inter-classe, ainsi que la présence d’objets de petite taille. Pour surmonter ces défis, nous tirons parti des avantages des Transformers et proposons AerialFormer, une architecture qui combine des Transformers dans la partie contractante avec des réseaux de neurones convolutifs légers à dilatation multiple (MD-CNNs) dans la partie expansive. Notre AerialFormer repose sur une structure hiérarchique : l’encodeur Transformer extrait des caractéristiques multi-échelles, tandis que le décodeur MD-CNNs agrège ces informations à différentes échelles. Cette approche permet de prendre en compte à la fois les contextes locaux et globaux, permettant ainsi d’obtenir des représentations puissantes et une segmentation à haute résolution. Nous avons évalué AerialFormer sur trois jeux de données couramment utilisés : iSAID, LoveDA et Potsdam. Des expériences approfondies ainsi que des études d’ablation étendues montrent que notre méthode dépasse de manière significative les approches précédemment les plus performantes. Le code source sera rendu publique à la suite de l’acceptation de cet article.