HyperAIHyperAI
il y a 2 mois

MMSFormer : Transformateur multimodal pour la segmentation matérielle et sémantique

Md Kaykobad Reza; Ashley Prater-Bennette; M. Salman Asif
MMSFormer : Transformateur multimodal pour la segmentation matérielle et sémantique
Résumé

L'exploitation de l'information à travers des modalités diverses est connue pour améliorer les performances sur les tâches de segmentation multimodale. Cependant, la fusion efficace de l'information provenant de différentes modalités reste un défi en raison des caractéristiques uniques de chaque modality. Dans cet article, nous proposons une nouvelle stratégie de fusion capable de combiner efficacement l'information provenant de différentes combinaisons de modalités. Nous présentons également un nouveau modèle nommé Multi-Modal Segmentation TransFormer (MMSFormer), qui intègre cette stratégie de fusion pour effectuer des tâches de segmentation matérielle et sémantique multimodale. Le MMSFormer surpasse les modèles actuels les plus avancés sur trois jeux de données différents. En commençant avec une seule modalité d'entrée, les performances s'améliorent progressivement lorsque des modalités supplémentaires sont intégrées, mettant en évidence l'efficacité du bloc de fusion dans la combinaison d'informations utiles provenant de modalités d'entrée variées. Les études d'ablation montrent que différents modules du bloc de fusion sont cruciaux pour la performance globale du modèle. De plus, nos études d'ablation soulignent également la capacité des différentes modalités d'entrée à améliorer les performances dans l'identification de différents types de matériaux. Le code source et les modèles pré-entraînés seront mis à disposition sur https://github.com/csiplab/MMSFormer.

MMSFormer : Transformateur multimodal pour la segmentation matérielle et sémantique | Articles de recherche récents | HyperAI