Amélioration de la segmentation des cultures dans les séries temporelles d’images satellitaires à l’aide de réseaux transformer
Des études récentes ont montré que les réseaux de neurones convolutifs (CNN) obtiennent des résultats remarquables dans la segmentation des cultures à partir de séries temporelles d’images satellitaires (SITS). Toutefois, l’émergence des architectures transformer dans diverses tâches de vision pose la question de savoir si celles-ci peuvent surpasser les CNN dans la segmentation des cultures sur les SITS. Ce papier présente une version révisée du modèle Swin UNETR basé sur les transformer, adaptée spécifiquement à la segmentation des cultures à partir de SITS. Le modèle proposé démontre des progrès significatifs, atteignant une précision de validation de 96,14 % et une précision de test de 95,26 % sur le jeu de données de Munich, dépassant ainsi les résultats précédents les plus élevés de 93,55 % pour la validation et 92,94 % pour le test. Par ailleurs, les performances du modèle sur le jeu de données Lombardia sont comparables à celles de UNet3D et supérieures à celles de FPN et DeepLabV3. Les expériences menées dans cette étude indiquent que le modèle pourrait atteindre une précision équivalente ou supérieure à celle des CNN tout en nécessitant un temps d’entraînement sensiblement réduit. Ces résultats mettent en évidence le potentiel des architectures basées sur les transformer pour la segmentation des cultures dans les SITS, ouvrant ainsi de nouvelles perspectives pour les applications de télédétection.