Évaluation et mise à l'échelle des modèles d'apprentissage profond pour la classification d'images de couverture du sol

La disponibilité d’une quantité massive d’images Copernicus Sentinel-2 a ouvert de nouvelles opportunités pour exploiter les méthodes d’apprentissage profond (DL) dans la classification d’images de couverture et d’usage des sols (LULC). Toutefois, un ensemble étendu d’expériences de benchmark est actuellement absent, c’est-à-dire que les modèles DL ne sont pas testés sur le même jeu de données, avec un ensemble commun et cohérent de métriques, ni sur le même matériel. Dans ce travail, nous utilisons pour la première fois le jeu de données BigEarthNet Sentinel-2 afin de benchmarker différents modèles DL d’avant-garde pour le problème de classification multi-étiquettes et multi-classes de LULC, en proposant une zoologie exhaustive de 60 modèles entraînés. Notre benchmark inclut des réseaux de neurones convolutifs classiques, ainsi que des méthodes non convolutionnelles. Nous évaluons les architectures EfficientNets et les Réseaux résiduels larges (WRN), en mesurant l’exactitude de classification, le temps d’entraînement et le taux d’inférence. En outre, nous proposons d’appliquer le cadre EfficientNet à l’échelle composée d’un WRN léger. Enrichi d’un mécanisme d’attention canal efficace, notre modèle léger échelonné émerge comme le nouveau état de l’art. Il atteint une précision de classification F-Score moyen supérieure de 4,5 % pour les 19 classes de LULC par rapport à un modèle de référence standard ResNet50, tout en disposant d’un ordre de grandeur moins de paramètres entraînables. Nous mettons à disposition tous les modèles entraînés, ainsi que notre code pour l’entraînement distribué sur plusieurs nœuds GPU. Cette zoologie de encodeurs pré-entraînés peut être utilisée pour le transfert d’apprentissage et la conception rapide de prototypes dans diverses tâches de télédétection utilisant des données Sentinel-2, plutôt que d’exploiter des modèles de base entraînés sur des données provenant d’un domaine différent, par exemple ImageNet. Nous validons leur adéquation pour le transfert d’apprentissage sur différentes bases de données de volumes variés. Notre meilleur modèle WRN atteint une performance de pointe (71,1 % de F-Score) sur le jeu de données SEN12MS, tout en étant exposé à une fraction très réduite du jeu de données d’entraînement.