HyperAIHyperAI
il y a 2 mois

StitchFusion : Tisser n'importe quelles modalités visuelles pour améliorer la segmentation sémantique multimodale

Bingyu Li; Da Zhang; Zhiyuan Zhao; Junyu Gao; Xuelong Li
StitchFusion : Tisser n'importe quelles modalités visuelles pour améliorer la segmentation sémantique multimodale
Résumé

La segmentation sémantique multimodale montre un potentiel significatif pour améliorer la précision de la segmentation dans des scènes complexes. Cependant, les méthodes actuelles intègrent souvent des modules de fusion de caractéristiques spécialisés adaptés à des modalités spécifiques, ce qui restreint la flexibilité des entrées et augmente le nombre de paramètres d'entraînement. Pour relever ces défis, nous proposons StitchFusion, un cadre de fusion modale simple mais efficace qui intègre directement des modèles pré-entraînés à grande échelle en tant que encodeurs et fuseurs de caractéristiques. Cette approche facilite une fusion complète de caractéristiques multimodales et multirésolution, permettant l'acceptation de toutes les entrées visuelles multimodales. Plus précisément, notre cadre réalise l'intégration modale pendant l'encodage en partageant les informations visuelles multimodales. Pour améliorer l'échange d'informations entre les modalités, nous introduisons un module d'adaptateur multidirectionnel (MultiAdapter) afin de permettre le transfert d'informations intermodales pendant l'encodage. En utilisant MultiAdapter pour propager les informations multirésolution à travers les encodeurs pré-entraînés lors du processus d'encodage, StitchFusion parvient à intégrer les informations visuelles multimodales pendant l'encodage. Des expériences comparatives étendues démontrent que notre modèle atteint des performances de pointe sur quatre jeux de données de segmentation multimodale avec un minimum de paramètres supplémentaires. De plus, l'intégration expérimentale du MultiAdapter avec des modules existants de fusion de caractéristiques (FFMs) souligne leur nature complémentaire. Notre code est disponible sur StitchFusion_repo.

StitchFusion : Tisser n'importe quelles modalités visuelles pour améliorer la segmentation sémantique multimodale | Articles de recherche récents | HyperAI