HyperAIHyperAI

Command Palette

Search for a command to run...

RoadFormer+: Amélioration de la Parsage de Scène RGB-X par Découplage d'Information à Échelle et Fusion de Caractéristiques Hétérogènes Avancée

Jianxin Huang, Student Member, IEEE, Jiahang Li, Graduate Student Member, IEEE, Ning Jia, Yuxiang Sun, Chengju Liu, Qijun Chen, Senior Member, IEEE, and Rui Fan, Senior Member, IEEE

Résumé

Les réseaux de fusion de données spécifiques à une tâche ont enregistré des réalisations notables dans l'analyse des scènes urbaines. Parmi ces réseaux, notre modèle RoadFormer, récemment proposé, réussit efficacement à extraire des caractéristiques hétérogènes à partir d'images RGB et de cartes de normales de surface, et à les fusionner par le biais de mécanismes d'attention, démontrant ainsi une efficacité convaincante dans l'analyse des scènes routières RGB-Normal. Cependant, ses performances se détériorent considérablement lorsqu'il traite d'autres types ou sources de données ou effectue des tâches d'analyse de scènes plus universelles et couvrant toutes les catégories. Pour surmonter ces limitations, cette étude présente RoadFormer+, un modèle efficace, robuste et adaptable capable de fusionner efficacement les données RGB-X, où « X » représente des types/modèles supplémentaires de données tels que la profondeur, l'infrarouge thermique, les normales de surface et la polarisation. Plus précisément, nous proposons un nouvel encodeur hybride pour la désentrelacement des caractéristiques qui extrait des caractéristiques hétérogènes et les désentrelace en composantes globales et locales. Ces caractéristiques désentrelacées sont ensuite fusionnées au moyen d'un bloc de fusion multi-échelle à double branche, qui utilise des attentions Transformer parallèles et des modules de réseau neuronal convolutif pour combiner des caractéristiques multi-échelle à différentes échelles et champs récepteurs. Les caractéristiques fusionnées sont ensuite transmises à un décodeur pour générer les prédictions sémantiques finales. Il est important de noter que notre RoadFormer+ proposé occupe la première place sur le benchmark KITTI Road et atteint des performances d'état de l'art en termes d'intersection moyenne sur l'union sur les jeux de données Cityscapes, MFNet, FMB et ZJU. De plus, il réduit le nombre de paramètres apprenables de 65 % par rapport à RoadFormer. Notre code source sera rendu publiquement disponible sur mias.group/RoadFormerPlus.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp