UVid-Net : Amélioration de la segmentation sémantique des vidéos aériennes de drones par l'intégration d'informations temporelles

La segmentation sémantique des vidéos aériennes est largement utilisée pour la prise de décision dans le suivi des changements environnementaux, l'aménagement urbain et la gestion des catastrophes. La fiabilité de ces systèmes d'aide à la décision dépend de la précision des algorithmes de segmentation sémantique vidéo. Les méthodes actuelles de segmentation sémantique vidéo basées sur les CNN ont amélioré les méthodes de segmentation sémantique d'images en intégrant un module supplémentaire tel que l'LSTM ou le flux optique pour calculer les dynamiques temporelles de la vidéo, ce qui constitue une charge computationnelle supplémentaire. Le travail de recherche proposé modifie l'architecture des CNN en incorporant des informations temporelles pour améliorer l'efficacité de la segmentation sémantique vidéo.Dans cette étude, une architecture CNN basée sur un encodeur-décodeur amélioré (UVid-Net) est proposée pour la segmentation sémantique des vidéos aériennes prises par des drones. L'encodeur de l'architecture proposée intègre des informations temporelles pour assurer une étiquetage temporellement cohérent. Le décodeur est amélioré par l'introduction d'un module affinant les caractéristiques, qui aide à localiser précisément les étiquettes de classe. L'architecture UVid-Net proposée pour la segmentation sémantique des vidéos aériennes prises par des drones a été évaluée quantitativement sur le jeu de données ManipalUAVid étendu. Un métrique de performance mIoU de 0,79 a été observé, ce qui est significativement supérieur aux autres algorithmes d'avant-garde. De plus, le travail proposé a produit des résultats prometteurs même pour le modèle pré-entraîné UVid-Net appliqué à des scènes urbaines, avec un ajustement fin du dernier niveau sur les vidéos aériennes prises par des drones.