HyperAIHyperAI
il y a 2 mois

RoadFormer+: Amélioration de la Parsage de Scène RGB-X par Découplage d'Information à Échelle et Fusion de Caractéristiques Hétérogènes Avancée

Jianxin Huang; Jiahang Li; Ning Jia; Yuxiang Sun; Chengju Liu; Qijun Chen; Rui Fan
RoadFormer+: Amélioration de la Parsage de Scène RGB-X par Découplage d'Information à Échelle et Fusion de Caractéristiques Hétérogènes Avancée
Résumé

Les réseaux de fusion de données spécifiques à une tâche ont enregistré des réalisations notables dans l'analyse des scènes urbaines. Parmi ces réseaux, notre modèle RoadFormer, récemment proposé, réussit efficacement à extraire des caractéristiques hétérogènes à partir d'images RGB et de cartes de normales de surface, et à les fusionner par le biais de mécanismes d'attention, démontrant ainsi une efficacité convaincante dans l'analyse des scènes routières RGB-Normal. Cependant, ses performances se détériorent considérablement lorsqu'il traite d'autres types ou sources de données ou effectue des tâches d'analyse de scènes plus universelles et couvrant toutes les catégories. Pour surmonter ces limitations, cette étude présente RoadFormer+, un modèle efficace, robuste et adaptable capable de fusionner efficacement les données RGB-X, où « X » représente des types/modèles supplémentaires de données tels que la profondeur, l'infrarouge thermique, les normales de surface et la polarisation. Plus précisément, nous proposons un nouvel encodeur hybride pour la désentrelacement des caractéristiques qui extrait des caractéristiques hétérogènes et les désentrelace en composantes globales et locales. Ces caractéristiques désentrelacées sont ensuite fusionnées au moyen d'un bloc de fusion multi-échelle à double branche, qui utilise des attentions Transformer parallèles et des modules de réseau neuronal convolutif pour combiner des caractéristiques multi-échelle à différentes échelles et champs récepteurs. Les caractéristiques fusionnées sont ensuite transmises à un décodeur pour générer les prédictions sémantiques finales. Il est important de noter que notre RoadFormer+ proposé occupe la première place sur le benchmark KITTI Road et atteint des performances d'état de l'art en termes d'intersection moyenne sur l'union sur les jeux de données Cityscapes, MFNet, FMB et ZJU. De plus, il réduit le nombre de paramètres apprenables de 65 % par rapport à RoadFormer. Notre code source sera rendu publiquement disponible sur mias.group/RoadFormerPlus.

RoadFormer+: Amélioration de la Parsage de Scène RGB-X par Découplage d'Information à Échelle et Fusion de Caractéristiques Hétérogènes Avancée | Articles de recherche récents | HyperAI