HyperAIHyperAI
il y a 4 mois

MonoLSS : Sélection d'Échantillons Apprenable pour la Détection 3D Monoculaire

Li, Zhenjia ; Jia, Jinrang ; Shi, Yifeng
MonoLSS : Sélection d'Échantillons Apprenable pour la Détection 3D Monoculaire
Résumé

Dans le domaine de la conduite autonome, la détection mono-caméra 3D est une tâche cruciale qui consiste à estimer les propriétés 3D (profondeur, dimensions et orientation) des objets dans une seule image RGB. Les travaux précédents ont utilisé des caractéristiques de manière heuristique pour apprendre ces propriétés 3D, sans prendre en compte que l'utilisation de caractéristiques inappropriées pouvait avoir des effets néfastes. Dans cet article, nous introduisons la sélection d'échantillons, selon laquelle seuls les échantillons appropriés devraient être formés pour régresser les propriétés 3D. Pour sélectionner les échantillons de manière adaptative, nous proposons un module de Sélection d'Échantillons Apprenable (LSS), basé sur Gumbel-Softmax et un diviseur d'échantillons basé sur la distance relative. Le module LSS fonctionne avec une stratégie de préchauffage, ce qui améliore la stabilité de l'entraînement. De plus, puisque le module LSS dédié à la sélection d'échantillons pour les propriétés 3D repose sur des caractéristiques au niveau objet, nous avons développé une méthode d'augmentation de données appelée MixUp3D pour enrichir les échantillons de propriétés 3D conformément aux principes d'imagerie sans introduire d'ambiguïté. En tant que deux méthodes orthogonales, le module LSS et MixUp3D peuvent être utilisés indépendamment ou conjointement. Des expériences suffisantes ont montré que leur utilisation combinée peut entraîner des effets synergiques, générant des améliorations qui dépassent la simple somme de leurs applications individuelles. En utilisant le module LSS et MixUp3D sans aucune donnée supplémentaire, notre méthode nommée MonoLSS occupe la première place dans les trois catégories (Voiture, Cycliste et Piéton) du benchmark KITTI pour la détection d'objets 3D et obtient des résultats compétitifs sur l'ensemble de données Waymo ainsi que lors de l'évaluation croisée KITTI-nuScenes. Le code est inclus dans le matériel supplémentaire et sera rendu disponible afin de faciliter les études académiques et industrielles connexes.