HyperAIHyperAI
il y a 15 jours

Apprentissage non supervisé de représentations audiovisuelles pour des données de télédétection

Konrad Heidler, Lichao Mou, Di Hu, Pu Jin, Guangyao Li, Chuang Gan, Ji-Rong Wen, Xiao Xiang Zhu
Apprentissage non supervisé de représentations audiovisuelles pour des données de télédétection
Résumé

De nombreuses approches actuelles d’apprentissage profond font un usage intensif de réseaux de base (backbone networks) pré-entraînés sur de grandes bases de données comme ImageNet, puis affinés pour accomplir une tâche spécifique. En télédétection, le manque de bases de données annotées comparables à grande échelle ainsi que la grande diversité des plateformes de perception freinent des développements similaires. Afin de contribuer à la disponibilité de réseaux de base pré-entraînés en télédétection, nous proposons une approche d’auto-entraînement (self-supervised) pour pré-entraîner des réseaux neuronaux profonds. Cette méthode exploite la correspondance entre des enregistrements audio géolocalisés et des images de télédétection, permettant un entraînement entièrement sans étiquettes, sans nécessiter d’annotation manuelle fastidieuse. À cette fin, nous introduisons le jeu de données SoundingEarth, composé d’images aériennes et d’échantillons audio co-localisés à travers le monde. À l’aide de ce jeu de données, nous pré-entraînons des modèles ResNet afin de projeter des échantillons provenant des deux modalités dans un espace d’embedding commun, ce qui incite les modèles à capturer des propriétés clés d’une scène influençant à la fois l’apparence visuelle et auditive. Pour valider l’utilité de l’approche proposée, nous évaluons les performances d’apprentissage par transfert des poids pré-entraînés obtenus, comparées à celles issues d’autres méthodes. En affinant les modèles sur plusieurs bases de données couramment utilisées en télédétection, nous démontrons que notre approche surpasse les stratégies existantes de pré-entraînement pour les images de télédétection. Le jeu de données, le code source et les poids pré-entraînés seront mis à disposition à l’adresse suivante : https://github.com/khdlr/SoundingEarth.

Apprentissage non supervisé de représentations audiovisuelles pour des données de télédétection | Articles de recherche récents | HyperAI