HyperAIHyperAI
il y a 11 jours

MTANet : Réseau Multitâche-Aware avec Fusion Multimodale Hiérarchique pour la Compréhension des Scènes Urbaines RGB-T

{Lu Yu, Jingsheng Lei, Shaohua Dong, WuJie Zhou}
Résumé

Comprendre les scènes urbaines constitue une capacité fondamentale requise pour les systèmes de conduite assistée et les véhicules autonomes. La plupart des méthodes actuellement disponibles pour la compréhension des scènes urbaines reposent sur des images en couleur RVB (Red-Green-Blue) ; toutefois, leurs performances en segmentation sont sujettes à dégradation dans des conditions d’éclairage défavorables. Récemment, de nombreux réseaux neuronaux artificiels efficaces ont été proposés pour la compréhension des scènes urbaines, démontrant que l’intégration d’images RVB et thermiques (RVB-T) permet d’améliorer la précision de segmentation même en conditions d’éclairage médiocres. Toutefois, le potentiel de la fusion de caractéristiques multimodales n’a pas été pleinement exploité, les approches courantes se limitant à des opérations simples telles que la concaténation directe des caractéristiques RVB et thermiques ou la moyenne de leurs cartes de features. Afin d’améliorer la fusion de caractéristiques multimodales et la précision de segmentation, nous proposons un réseau multitâche-aware (MTANet) basé sur une fusion hiérarchique multimodale (stratégie de fusion multiscale) pour la compréhension des scènes urbaines RVB-T. Nous avons conçu un module de fusion hiérarchique multimodale afin d’optimiser la fusion des caractéristiques, et un module de représentation sémantique de haut niveau pour extraire des informations sémantiques, qui sont ensuite combinées aux caractéristiques brutes à différents niveaux d’abstraction. Grâce au module de fusion multilayers, nous avons exploité des fusions à faible, moyenne et haute niveaux afin d’améliorer la précision de segmentation. Le module multitâche utilise une supervision par contour, binaire et sémantique pour optimiser les paramètres du MTANet. Des expériences étendues ont été menées sur deux jeux de données standard RVB-T afin de valider l’amélioration des performances du MTANet proposé par rapport aux méthodes de pointe actuelles.

MTANet : Réseau Multitâche-Aware avec Fusion Multimodale Hiérarchique pour la Compréhension des Scènes Urbaines RGB-T | Articles de recherche récents | HyperAI