Détection multivue avec Shadow Transformer (et augmentation de données cohérente entre les vues)

La détection multivue intègre plusieurs vues de caméra pour gérer les occultations, et son problème central est l'agrégation multivue. Étant donné des projections de cartes de caractéristiques provenant de plusieurs vues sur un plan commun du sol, la méthode d'avant-garde aborde ce problème par le biais de convolutions, qui appliquent le même calcul indépendamment des emplacements des objets. Cependant, de tels comportements invariants par translation ne sont peut-être pas le meilleur choix, car les caractéristiques des objets subissent diverses distorsions de projection en fonction de leurs positions et des caméras. Dans cet article, nous proposons un nouveau détecteur multivue, MVDeTr, qui adopte un shadow transformer (transformateur d'ombre) récemment introduit pour agrégater l'information multivue. Contrairement aux convolutions, le shadow transformer accorde une attention différente à différentes positions et caméras pour traiter diverses distorsions similaires à celles des ombres. Nous proposons également un schéma d'entraînement efficace qui inclut une nouvelle méthode d'augmentation de données cohérente entre les vues, appliquant des augmentations aléatoires tout en maintenant la cohérence multivue. Sur deux benchmarks de détection multivue, nous rapportons une précision d'état de l'art inédite avec le système proposé. Le code est disponible à l'adresse https://github.com/hou-yz/MVDeTr.