HyperAIHyperAI
il y a 2 mois

Lever, Écraser, Tirer : Encodage d'images provenant de dispositifs caméra arbitraires par projection implicite en 3D

Philion, Jonah ; Fidler, Sanja
Lever, Écraser, Tirer : Encodage d'images provenant de dispositifs caméra arbitraires par
projection implicite en 3D
Résumé

L'objectif de la perception pour les véhicules autonomes est d'extraire des représentations sémantiques à partir de multiples capteurs et de fusionner ces représentations dans un seul cadre de coordonnées en vue d'oiseau pour être utilisées par la planification du mouvement. Nous proposons une nouvelle architecture bout-à-bout qui extrait directement une représentation en vue d'oiseau d'une scène à partir de données d'image provenant d'un nombre arbitraire de caméras. L'idée centrale de notre approche consiste à « soulever » chaque image individuellement dans un faisceau de caractéristiques pour chaque caméra, puis à « éclabousser » tous les faisceaux dans une grille rasterisée en vue d'oiseau. En formant le modèle sur l'ensemble du dispositif caméra, nous fournissons des preuves que notre modèle est capable non seulement d'apprendre comment représenter les images, mais aussi comment fusionner les prédictions de toutes les caméras en une seule représentation cohérente de la scène tout en étant robuste aux erreurs de calibration.Sur des tâches standard en vue d'oiseau telles que la segmentation d'objets et la segmentation cartographique, notre modèle surpassent tous les modèles de référence et les travaux antérieurs. Dans le cadre de l'objectif visant à apprendre des représentations densément pour la planification du mouvement, nous démontrons que les représentations inférées par notre modèle permettent une planification du mouvement interprétable bout-à-bout en « tirant » des trajectoires modèles dans une carte coût en vue d'oiseau générée par notre réseau. Nous comparons notre approche avec des modèles utilisant une profondeur oraculaire issue du lidar.Page du projet avec le code : https://nv-tlabs.github.io/lift-splat-shoot .

Lever, Écraser, Tirer : Encodage d'images provenant de dispositifs caméra arbitraires par projection implicite en 3D | Articles de recherche récents | HyperAI