Segmentation Sémantique Multimodale Efficace par Apprentissage à Double-Suggestion

La fusion multimodale (par exemple, RGB-Profondeur/RGB-Thermique) a montré un grand potentiel pour améliorer la segmentation sémantique dans des scènes complexes (par exemple, en intérieur/conditions de faible luminosité). Les approches existantes ajustent souvent entièrement un cadre encodeur-décodeur à double branche avec une stratégie de fusion de caractéristiques compliquée pour réaliser la segmentation sémantique multimodale, ce qui est coûteux en termes de formation en raison des nombreuses mises à jour de paramètres lors de l'extraction et de la fusion des caractéristiques. Pour résoudre ce problème, nous proposons un réseau d'apprentissage à double incitation (appelé DPLNet) étonnamment simple mais efficace pour une segmentation sémantique multimodale (par exemple, RGB-D/T) optimisée en termes de formation. L'essence du DPLNet consiste à adapter directement un modèle pré-entraîné RGB figé à la segmentation sémantique multimodale, réduisant ainsi les mises à jour de paramètres. À cette fin, nous présentons deux modules d'apprentissage par incitation, comprenant le générateur d'incitations multimodales (MPG) et l'adaptateur de caractéristiques multimodales (MFA). Le MPG fonctionne pour fusionner les caractéristiques provenant de différentes modalités de manière compacte et est inséré des étapes ombragées jusqu'aux étapes profondes pour générer des incitations multimodales multiniveaux qui sont injectées dans le backbone figé. Quant au MFA, il adapte les caractéristiques multimodales incitées dans le backbone figé pour une meilleure segmentation sémantique multimodale. Étant donné que le MPG et le MFA sont légers, seuls quelques paramètres entraînables (3,88 millions, soit 4,4 % des paramètres du backbone pré-entraîné) sont introduits pour la fusion et l'apprentissage des caractéristiques multimodales. En utilisant un décodeur simple (3,27 millions de paramètres), DPLNet atteint une nouvelle performance record ou est comparable aux autres approches plus complexes sur quatre jeux de données de segmentation sémantique RGB-D/T tout en satisfaisant l'efficacité paramétrique. De plus, nous montrons que DPLNet est généralisable et applicable à d'autres tâches multimodales telles que la détection d'objets saillants et la segmentation sémantique vidéo. Sans conception spéciale, DPLNet surpasse de nombreux modèles compliqués. Notre code sera disponible sur github.com/ShaohuaDong2021/DPLNet.