HyperAIHyperAI
il y a 16 jours

Robustesse face à la modalité manquante dans la segmentation sémantique multi-modale semi-supervisée

Harsh Maheshwari, Yen-Cheng Liu, Zsolt Kira
Robustesse face à la modalité manquante dans la segmentation sémantique multi-modale semi-supervisée
Résumé

L’utilisation de plusieurs modalités spatiales s’est avérée bénéfique pour améliorer les performances de la segmentation sémantique. Toutefois, plusieurs défis réels restent à relever : (a) améliorer l’efficacité des étiquettes et (b) renforcer la robustesse dans des scénarios réalistes où certaines modalités sont absentes au moment de l’évaluation. Pour relever ces défis, nous proposons tout d’abord un mécanisme de fusion multi-modale simple mais efficace, nommé Linear Fusion, qui surpasser les modèles multi-modaux les plus avancés, même sous une supervision limitée. Ensuite, nous introduisons M3L : Multi-modal Teacher for Masked Modality Learning, un cadre semi-supervisé qui améliore non seulement les performances multi-modales, mais permet également au modèle de rester robuste face à des modalités manquantes dans des situations réalistes, en exploitant des données non étiquetées. Nous avons établi la première référence (benchmark) pour la segmentation sémantique multi-modale en contexte semi-supervisé, et rapportons également la robustesse aux modalités absentes. Notre approche obtient une amélioration absolue allant jusqu’à 10 % en mIoU robuste par rapport aux meilleurs modèles existants. Le code est disponible à l’adresse suivante : https://github.com/harshm121/M3L

Robustesse face à la modalité manquante dans la segmentation sémantique multi-modale semi-supervisée | Articles de recherche récents | HyperAI