BEVStereo : Amélioration de l'estimation de profondeur dans la détection d'objets 3D multi-vue grâce au stéréo temporel dynamique

Contraint par l'ambiguïté intrinsèque de la perception de profondeur, les méthodes actuelles de détection 3D basées sur les caméras rencontrent un goulot d'étranglement en termes de performance. Intuitivement, l'exploitation de la technologie de stéréo à plusieurs vues temporelles (MVS) apparaît comme une solution naturelle pour atténuer cette ambiguïté. Toutefois, les approches traditionnelles de MVS présentent deux limites majeures lorsqu'elles sont appliquées à des scénarios de détection 3D : 1) Le calcul de la similarité entre toutes les vues entraîne un coût computationnel élevé ; 2) Elles peinent à traiter les scénarios en extérieur, où les objets sont fréquemment en mouvement. Afin de surmonter ces défis, nous proposons une méthode stéréo temporelle efficace, capable de sélectionner dynamiquement l'échelle des candidats de correspondance, réduisant ainsi significativement la charge computationnelle. Allant plus loin, nous avons conçu un algorithme itératif pour actualiser les candidats les plus pertinents, rendant ainsi la méthode adaptative aux objets en mouvement. Nous avons intégré cette approche dans un détecteur 3D à plusieurs vues, nommé BEVStereo. BEVStereo atteint une nouvelle performance de pointe (52,5 % de mAP et 61,0 % de NDS) sur la piste uniquement caméra du jeu de données nuScenes. Par ailleurs, des expériences étendues montrent que notre méthode se distingue des approches MVS contemporaines dans la gestion de scénarios extérieurs complexes. Le code source est disponible à l'adresse suivante : https://github.com/Megvii-BaseDetection/BEVStereo.