Le Temps Le Direra : Nouvelles Perspectives et Une Base pour la Détection 3D Multi-Vue Temporelle d'Objets

Bien que les méthodes récentes de détection 3D à partir de caméras se fondent sur plusieurs instants temporels, l’historique limité qu’elles utilisent entrave considérablement l’efficacité de la fusion temporelle pour améliorer la perception des objets. Observant que les approches existantes de fusion d’images multi-trames correspondent à une forme de correspondance stéréo temporelle, nous constatons que les performances sont freinées par l’interaction entre 1) la faible granularité de la résolution de correspondance et 2) la configuration sous-optimale à plusieurs vues induite par l’usage restreint de l’historique. Notre analyse théorique et empirique démontre que la différence temporelle optimale entre les vues varie significativement selon les pixels et les profondeurs, rendant nécessaire la fusion de nombreuses trames sur une longue période d’historique. À partir de cette investigation, nous proposons de construire un volume de coût à partir d’un long historique d’observations d’images, compensant ainsi la résolution de correspondance grossière mais efficace par une configuration de correspondance multi-vues plus optimale. En outre, nous enrichissons les prédictions de profondeur monoculaires par trame utilisées pour la correspondance grossière à long terme par une correspondance fine à court terme, et constatons que la fusion temporelle à long et à court terme s’avère hautement complémentaire. Tout en maintenant une haute efficacité, notre cadre atteint un nouveau état de l’art sur nuScenes, obtenant la première place sur l’ensemble de test, et surpassant la meilleure méthode précédente de 5,2 % en mAP et de 3,7 % en NDS sur l’ensemble de validation. Le code sera publié à l’adresse suivante : $\href{https://github.com/Divadi/SOLOFusion}{ici.}$