HyperAIHyperAI
il y a 2 mois

Apprentissage de Caractéristiques Multi-interactives et un Benchmark Multimodal en Temps Réel pour la Fusion et la Segmentation d'Images

Jinyuan Liu; Zhu Liu; Guanyao Wu; Long Ma; Risheng Liu; Wei Zhong; Zhongxuan Luo; Xin Fan
Apprentissage de Caractéristiques Multi-interactives et un Benchmark Multimodal en Temps Réel pour la Fusion et la Segmentation d'Images
Résumé

La fusion et la segmentation d'images multimodales jouent un rôle crucial dans la conduite autonome et les opérations robotiques. Les premières tentatives se concentraient sur l'amélioration des performances pour une seule tâche, par exemple, la fusion ou la segmentation, ce qui rendait difficile d'atteindre le "Meilleur des Deux Mondes". Pour surmonter cette difficulté, nous proposons dans cet article une architecture d'apprentissage de caractéristiques multi-interactives pour la fusion et la segmentation d'images, nommée SegMiF (Segmentation Multi-Interactive Feature), et nous exploitons la corrélation entre les deux tâches afin de renforcer les performances de chacune.SegMiF est structuré en cascade, comprenant un sous-réseau de fusion et un sous-réseau de segmentation couramment utilisé. En reliant habilement les caractéristiques intermédiaires entre les deux composants, les connaissances acquises lors de la tâche de segmentation peuvent efficacement aider à la tâche de fusion. De plus, le réseau de fusion amélioré soutient le réseau de segmentation pour qu'il puisse fonctionner avec plus d'efficacité. Un bloc d'attention interactive hiérarchique est également mis en place pour garantir une correspondance précise de toutes les informations essentielles entre les deux tâches, permettant ainsi aux caractéristiques modales/sémantiques d'être pleinement mutuellement interactives.En outre, un facteur pondérant dynamique est introduit pour ajuster automatiquement les poids correspondants à chaque tâche, ce qui peut équilibrer la correspondance des caractéristiques interactives et surmonter les limitations du réglage fastidieux. Nous avons également conçu un système intelligent d'imagerie binoculaire multi-vagues et recueilli une base de référence multimodale complète avec 15 catégories annotées au niveau des pixels pour la fusion et la segmentation d'images.Des expériences approfondies menées sur plusieurs jeux de données publics et notre propre base de référence montrent que la méthode proposée génère des images fusionnées visuellement agréables et atteint en moyenne une mIoU (mean Intersection over Union) $7{,}66\%$ supérieure à celle des approches state-of-the-art dans des scénarios réels. Le code source et la base de référence sont disponibles à l'adresse \url{https://github.com/JinyuanLiu-CV/SegMiF}.

Apprentissage de Caractéristiques Multi-interactives et un Benchmark Multimodal en Temps Réel pour la Fusion et la Segmentation d'Images | Articles de recherche | HyperAI