Réseaux d'échange de canaux pour la prédiction dense multimodale et multitâche d'images

La fusion multimodale et l’apprentissage multitâche sont deux thèmes essentiels en apprentissage automatique. Malgré les progrès significatifs réalisés, les méthodes existantes pour ces deux problématiques restent fragiles face à un même défi : il demeure difficile d’intégrer efficacement les informations communes entre modalités (respectivement entre tâches) tout en préservant les caractéristiques spécifiques de chaque modalité (respectivement de chaque tâche). En outre, bien que ces deux approches soient intrinsèquement liées, elles ont rarement été explorées au sein d’un même cadre méthodologique auparavant. Dans cet article, nous proposons Channel-Exchanging-Network (CEN), un modèle auto-adaptatif, sans paramètre supplémentaire, et surtout applicable à la prédiction dense d’images multimodales et multitâches. Au cœur de CEN réside une opération d’échange adaptatif de canaux entre sous-réseaux dédiés à différentes modalités. Plus précisément, ce processus d’échange de canaux est guidé de manière autonome par l’importance individuelle de chaque canal, mesurée par l’amplitude du facteur d’échelle de la normalisation par lot (Batch-Normalization, BN) durant l’entraînement. Pour évaluer la validité de CEN dans le contexte de la prédiction dense d’images, nous avons testé notre approche dans quatre scénarios distincts : fusion multimodale, fusion cyclique multimodale, apprentissage multitâche, et apprentissage multitâche multimodal. Des expériences étendues sur la segmentation sémantique à partir de données RGB-D, ainsi que sur la translation d’images à partir d’entrées multi-domaines, démontrent l’efficacité de CEN par rapport aux méthodes de pointe. Des études d’ablation détaillées confirment également les avantages de chacun des composants proposés. Le code source est disponible à l’adresse suivante : https://github.com/yikaiw/CEN.