Adaptation de modèle auto-supervisée pour la segmentation sémantique multimodale

L'apprentissage d'une perception fiable et d'une compréhension de la scène est un élément essentiel permettant aux robots d'opérer dans le monde réel. Ce problème est intrinsèquement difficile en raison de la multitude de types d'objets ainsi que des changements d'apparence causés par des conditions d'éclairage et météorologiques variables. L'utilisation de modalités complémentaires peut permettre l'apprentissage de représentations sémantiquement plus riches qui sont résilientes à ces perturbations. Malgré les progrès considérables réalisés ces dernières années, la plupart des approches de réseaux neuronaux convolutifs multimodaux concatènent directement les cartes de caractéristiques issues des flux modaux individuels, ce qui rend le modèle incapable de se concentrer uniquement sur les informations complémentaires pertinentes pour la fusion.Pour remédier à cette limitation, nous proposons un cadre de segmentation sémantique multimodale qui adapte dynamiquement la fusion des caractéristiques spécifiques à chaque modalité tout en étant sensible à la catégorie d'objet, à l'emplacement spatial et au contexte scénique de manière autonome (self-supervised). Plus précisément, nous proposons une architecture composée de deux flux encodeurs spécifiques à chaque modalité qui fusionnent les représentations intermédiaires des encodeurs en un seul décodeur grâce à notre mécanisme d'adaptation autonome (self-supervised) de fusion, qui combine optimalement les caractéristiques complémentaires. Comme les représentations intermédiaires ne sont pas alignées entre les modalités, nous introduisons un schéma d'attention pour une meilleure corrélation.De plus, nous proposons une architecture de segmentation unimodale efficace en termes de calcul nommée AdapNet++, qui intègre un nouvel encodeur avec des unités résiduelles multirésolution et un atrous spatial pyramid pooling (ASPP) efficace doté d'un champ récepteur effectif plus large avec plus de 10 fois moins de paramètres. Cette architecture est complétée par un décodeur puissant avec un schéma de supervision multirésolution qui récupère les détails en haute résolution. Des évaluations empiriques exhaustives sur plusieurs benchmarks montrent que nos architectures unimodales et multimodales atteignent des performances state-of-the-art.