HyperAIHyperAI
il y a 2 mois

Exploration de la représentation intermédiaire pour l'estimation de la pose monulaire des véhicules

Shichao Li; Zengqiang Yan; Hongyang Li; Kwang-Ting Cheng
Exploration de la représentation intermédiaire pour l'estimation de la pose monulaire des véhicules
Résumé

Nous présentons un nouveau cadre basé sur l'apprentissage pour récupérer la pose d'un véhicule dans SO(3) à partir d'une seule image RGB. Contrairement aux travaux précédents qui cartographient l'apparence locale aux angles d'observation, nous explorons une approche progressive en extrayant des Représentations Géométriques Intermédiaires (RGI) significatives pour estimer l'orientation égocentrée du véhicule. Cette approche repose sur un modèle profond qui transforme les intensités perçues en RGI, qui sont ensuite mappées à une représentation 3D codant l'orientation de l'objet dans le système de coordonnées de la caméra. Les problèmes centraux sont de déterminer quelles RGI utiliser et comment les apprendre plus efficacement. Nous répondons à la première question en concevant des RGI basés sur un parallélépipède interpolé, qui peut être facilement dérivé des annotations 3D primitives. La seconde question nous motive à intégrer des connaissances géométriques avec une nouvelle fonction de perte basée sur un invariant projectif. Cette fonction de perte permet d'utiliser des données non étiquetées lors de l'étape d'entraînement pour améliorer l'apprentissage des représentations. Sans labels supplémentaires, notre système surpasses les méthodes précédentes basées sur une seule image RGB pour la détection conjointe et l'estimation de la pose des véhicules sur le benchmark KITTI, atteignant une performance comparable à celle des méthodes stéréoscopiques. Le code source et les modèles pré-entraînés sont disponibles à cette adresse URL : [this https URL].