Un modèle fondamental à l’échelle du milliard pour les images de télédétection

Alors que le potentiel des modèles fondamentaux dans les tâches visuelles suscite un intérêt croissant, le préentraînement de ces modèles avant les tâches spécifiques devient une étape cruciale. Les trois facteurs clés du préentraînement des modèles fondamentaux sont la méthode de préentraînement, la taille du jeu de données utilisé pour le préentraînement, et le nombre de paramètres du modèle. Récemment, les recherches dans le domaine de la télédétection se sont principalement concentrées sur la méthode de préentraînement et la taille du jeu de données, tandis que l’impact du nombre de paramètres a été largement négligé. Ce papier vise à combler cette lacune en examinant l’effet de l’augmentation du nombre de paramètres sur la performance des modèles fondamentaux dans des tâches spécifiques telles que la détection d’objets en rotation et la segmentation sémantique. Nous avons préentraîné des modèles fondamentaux avec un nombre variable de paramètres — 86 millions, 605,26 millions, 1,3 milliard et 2,4 milliards — afin d’évaluer si la performance sur les tâches ultérieures s’améliorait avec l’augmentation du nombre de paramètres. À notre connaissance, il s’agit du premier modèle fondamental à l’échelle du milliard dans le domaine de la télédétection. En outre, nous proposons une méthode efficace pour l’agrandissement et le fine-tuning d’un vision transformer dans le contexte de la télédétection. Pour évaluer la performance générale sur les tâches ultérieures, nous avons utilisé les jeux de données de référence DOTA v2.0 et DIOR-R pour la détection d’objets en rotation, ainsi que les jeux de données Potsdam et LoveDA pour la segmentation sémantique. Les résultats expérimentaux montrent que, sur tous les jeux de données de référence et les tâches spécifiques, la performance des modèles fondamentaux et leur efficacité en données s’améliorent significativement avec l’augmentation du nombre de paramètres. En outre, nos modèles atteignent des performances de pointe sur plusieurs jeux de données, notamment DIOR-R, Potsdam et LoveDA.