DAOcc : Détection d'objets 3D assistée par la fusion multi-capteurs pour la prédiction de l'occupation 3D

La fusion multi-capteurs améliore considérablement la précision et la robustesse de la prédiction sémantique 3D d'occupation, ce qui est crucial pour la conduite autonome et la robotique. Cependant, la plupart des approches existantes dépendent de grandes résolutions d'images et de réseaux complexes pour atteindre des performances optimales, ce qui entrave leur utilisation dans des scénarios pratiques. De plus, la plupart des méthodes de fusion multi-capteurs se concentrent sur l'amélioration des caractéristiques de fusion tout en négligeant l'exploration de stratégies de supervision pour ces caractéristiques.Dans cette optique, nous proposons DAOcc, un nouveau cadre de prédiction d'occupation multi-modale qui utilise une supervision de détection d'objets 3D pour aider à atteindre des performances supérieures, tout en utilisant un réseau d'extraction de caractéristiques d'images adapté au déploiement et une résolution d'image pratique. De plus, nous introduisons une stratégie d'Extension du Champ de Vue BEV (Bird's Eye View) pour atténuer les effets négatifs dus à la réduction de la résolution des images.Les résultats expérimentaux montrent que DAOcc atteint une nouvelle performance de pointe sur les benchmarks Occ3D-nuScenes et SurroundOcc, surpassant les autres méthodes avec une marge significative tout en utilisant uniquement ResNet50 et une résolution d'image d'entrée de 256*704 pixels. Le code sera mis à disposition sur https://github.com/AlphaPlusTT/DAOcc.