HyperAIHyperAI
il y a 9 jours

Augmentation efficace de la modélisation d’images masquées à grande échelle sur un grand jeu de données de télédétection

Fengxiang Wang, Hongzhen Wang, Di Wang, Zonghao Guo, Zhenyu Zhong, Long Lan, Jing Zhang, Zhiyuan Liu, Maosong Sun
Augmentation efficace de la modélisation d’images masquées à grande échelle sur un grand jeu de données de télédétection
Résumé

Le Modélisation d'Images Masquées (MIM) est devenue une méthode essentielle pour développer des modèles visuels fondamentaux en télédétection (TD). Toutefois, les limitations liées à la taille et à la diversité des jeux de données existants en TD restreignent la capacité des méthodes MIM à apprendre des représentations généralisables. Par ailleurs, les techniques classiques de MIM, qui exigent la reconstruction de tous les tokens, engendrent un surcroît computationnel inutile. Pour relever ces défis, nous proposons une nouvelle pipeline de pré-entraînement pour les modèles de télédétection, comprenant la création d’un grand jeu de données en TD et une approche MIM efficace. Nous avons constitué un jeu de données de haute qualité, nommé OpticalRS-13M, en collectant des jeux de données en TD disponibles publiquement, puis en les traitant par exclusion, découpage et suppression des doublons. OpticalRS-13M regroupe 13 millions d’images optiques couvrant diverses tâches en TD, telles que la détection d’objets et la segmentation pixel par pixel. Pour améliorer l’efficacité, nous proposons SelectiveMAE, une méthode de pré-entraînement qui encode et reconstruit dynamiquement les patchs porteurs de sens, réduisant ainsi les inefficacités des modèles MIM traditionnels causées par les pixels de fond redondants présents dans les images de TD. Des expériences étendues démontrent que OpticalRS-13M améliore significativement les performances en classification, détection et segmentation, tandis que SelectiveMAE augmente l’efficacité d’entraînement de plus de deux fois. Ces résultats mettent en évidence l’efficacité et la scalabilité de notre pipeline dans le développement de modèles fondamentaux en télédétection.