HyperAIHyperAI
il y a 2 mois

Au-delà du champ de vision : Amélioration de la visibilité et de la perception des scènes avec le Clip-Recurrent Transformer

Hao Shi; Qi Jiang; Kailun Yang; Xiaoting Yin; Ze Wang; Kaiwei Wang
Au-delà du champ de vision : Amélioration de la visibilité et de la perception des scènes avec le Clip-Recurrent Transformer
Résumé

Les capteurs d'image sont largement utilisés dans les véhicules, les robots et l'infrastructure routière. Cependant, en raison des limitations liées au coût du matériel et à la taille du système, le champ de vision (FoV) des caméras est souvent restreint et peut ne pas offrir une couverture suffisante. Néanmoins, sous un angle spatio-temporel, il est possible d'obtenir des informations au-delà du champ de vision physique de la caméra à partir des flux vidéo passés. Dans cet article, nous proposons le concept de restauration vidéo en ligne pour les véhicules autonomes afin d'élargir le champ de vision, améliorant ainsi la visibilité de la scène, la perception et la sécurité du système. Pour réaliser cela, nous introduisons l'architecture FlowLens, qui utilise explicitement le flot optique et incorpore implicitement un nouveau transformateur récurrent par clip pour la propagation des caractéristiques. FlowLens offre deux caractéristiques clés : 1) FlowLens inclut un nouveau Hub Récurrent par Clip avec une Attention Croisée 3D-Découplée (DDCA) pour traiter progressivement les informations globales accumulées au fil du temps. 2) Il intègre un réseau neuronal multi-branche à fusion mixte (MixF3N) pour améliorer le flot spatial précis des caractéristiques locales. Pour faciliter l'entraînement et l'évaluation, nous avons dérivé le jeu de données KITTI360 avec divers masques FoV, couvrant à la fois les scénarios d'élargissement externe et interne du champ de vision. Nous effectuons également des évaluations quantitatives et des comparaisons qualitatives de sémantique au-delà du FoV et de détection d'objets au-delà du FoV entre différents modèles. Nous montrons que l'utilisation de FlowLens pour reconstruire des scènes non vues améliore même la perception dans le champ de vision en fournissant un contexte sémantique fiable. De nombreuses expériences et études utilisateurs impliquant la restauration vidéo hors ligne et en ligne, ainsi que les tâches de perception au-delà du FoV, démontrent que FlowLens atteint des performances de pointe. Le code source et le jeu de données sont mis à disposition publiquement sur https://github.com/MasterHow/FlowLens.

Au-delà du champ de vision : Amélioration de la visibilité et de la perception des scènes avec le Clip-Recurrent Transformer | Articles de recherche récents | HyperAI