SeaBird : Segmentation en vue d'oiseau avec la perte Dice améliore la détection monulaire 3D d'objets volumineux

Les détecteurs 3D monoculaires atteignent des performances remarquables sur les voitures et les objets plus petits. Cependant, leurs performances baissent considérablement sur les objets plus grands, conduisant à des accidents mortels. Certains attribuent ces échecs à la rareté des données d'entraînement ou aux exigences de champ récepteur pour les objets volumineux. Dans cet article, nous mettons en lumière ce problème sous-étudié de généralisation aux objets plus grands. Nous constatons que les détecteurs frontaux modernes peinent à généraliser aux objets volumineux même sur des jeux de données presque équilibrés. Nous soutenons que la cause de l'échec est la sensibilité des pertes de régression de profondeur au bruit des objets plus grands. Pour combler cette lacune, nous menons une investigation complète des pertes de régression et de dice, examinant leur robustesse face à différents niveaux d'erreur et tailles d'objets. Nous démontrons mathématiquement que la perte de dice offre une meilleure robustesse au bruit et une meilleure convergence du modèle pour les objets volumineux par rapport aux pertes de régression dans un cas simplifié. En nous appuyant sur nos insights théoriques, nous proposons SeaBird (Segmentation in Bird's View) comme première étape vers la généralisation aux objets volumineux. SeaBird intègre efficacement la segmentation en vue oiseau (BEV) sur les objets au premier plan pour la détection 3D, avec une tête de segmentation entraînée à l'aide de la perte de dice. SeaBird obtient des résultats d'état de l'art (SoTA) sur le tableau d'affichage KITTI-360 et améliore les détecteurs existants sur le tableau d'affichage nuScenes, particulièrement pour les objets volumineux. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/abhi1kumar/SeaBird