HyperAIHyperAI
il y a 2 mois

Réseau de Projection d'Incertaineté Géométrique pour la Détection d'Objets 3D Mono-oculaire

Lu, Yan ; Ma, Xinzhu ; Yang, Lei ; Zhang, Tianzhu ; Liu, Yating ; Chu, Qi ; Yan, Junjie ; Ouyang, Wanli
Réseau de Projection d'Incertaineté Géométrique pour la Détection d'Objets 3D Mono-oculaire
Résumé

La Projection Géométrique est une méthode puissante d'estimation de profondeur dans la détection d'objets 3D monoculaire. Elle estime la profondeur en fonction des hauteurs, ce qui introduit des a priori mathématiques dans le modèle profond. Cependant, le processus de projection introduit également un problème d'amplification des erreurs, où l'erreur de la hauteur estimée est amplifiée et se reflète de manière importante à la profondeur de sortie. Cette propriété entraîne des inférences de profondeur non contrôlables et nuit également à l'efficacité de l'apprentissage. Dans cet article, nous proposons un Réseau de Projection d'Incertitude Géométrique (GUP Net) pour résoudre le problème d'amplification des erreurs aux stades d'inférence et d'apprentissage. Plus précisément, un module GUP est proposé pour obtenir l'incertitude guidée par la géométrie de la profondeur inférée, ce qui fournit non seulement une confiance très fiable pour chaque profondeur mais bénéficie également à l'apprentissage de la profondeur. De plus, au stade d'apprentissage, nous proposons une stratégie d'Apprentissage Hiérarchique des Tâches pour réduire l'instabilité causée par l'amplification des erreurs. Cet algorithme d'apprentissage surveille la situation d'apprentissage de chaque tâche grâce à un indicateur proposé et attribue adaptativement les poids de perte appropriés pour différentes tâches en fonction de leur situation pré-tâche. Sur cette base, chaque tâche ne commence son apprentissage que lorsque ses pré-tâches sont bien apprises, ce qui peut considérablement améliorer la stabilité et l'efficacité du processus d'apprentissage. Des expériences approfondies démontrent l'efficacité de la méthode proposée. Le modèle global peut inférer une profondeur d'objet plus fiable que les méthodes existantes et surpasser les détecteurs 3D monoculaires basés sur image les plus avancés avec une amélioration de 3,74 % et 4,7 % AP40 pour les catégories voitures et piétons sur le benchmark KITTI.