Comprendre les scènes sombres en contrastant des observations multimodales

Comprendre les scènes sombres à partir de données d’images multimodales est un défi, car à la fois le mode visible et le mode auxiliaire fournissent des informations sémantiques limitées pour cette tâche. Les méthodes précédentes se concentrent sur la fusion des deux modalités, tout en négligeant les corrélations entre les classes sémantiques lors de la minimisation des pertes pour aligner les pixels avec leurs étiquettes, ce qui conduit à des prédictions de classes inexactes. Pour résoudre ces problèmes, nous proposons une approche supervisée d’apprentissage contrastif multimodal, visant à améliorer la discriminabilité sémantique des espaces de caractéristiques apprises en effectuant simultanément une contrastation intermodale et intra-modale sous la supervision des corrélations entre classes. La contrastation intermodale encourage les représentations de la même classe issues des deux modalités à se rapprocher, tout en éloignant celles de classes différentes. La contrastation intra-modale impose aux représentations de la même classe (ou de classes différentes) au sein de chaque modalité de rester proches (ou éloignées). Nous validons notre approche sur une variété de tâches couvrant des conditions d’éclairage diverses et des modalités d’image variées. Les expériences montrent que notre méthode permet efficacement d’améliorer la compréhension des scènes sombres à partir d’images multimodales à faible richesse sémantique, en structurant des espaces de caractéristiques fortement discriminants sur le plan sémantique. Les comparaisons avec les méthodes antérieures démontrent la performance de pointe de notre approche. Le code source et les modèles préentraînés sont disponibles à l’adresse suivante : https://github.com/palmdong/SMMCL.