il y a 11 jours

BEVFormer v2 : Adapter les architectures modernes d’images aux reconnaissances en vue de dessus par une supervision perspective

Chenyu Yang, Yuntao Chen, Hao Tian, Chenxin Tao, Xizhou Zhu, Zhaoxiang Zhang, Gao Huang, Hongyang Li, Yu Qiao, Lewei Lu, Jie Zhou, Jifeng Dai

Voir les détails de l'article

BEVFormer v2 : Adapter les architectures modernes d’images aux reconnaissances en vue de dessus par une supervision perspective

Résumé

Nous présentons un nouveau détecteur vue de dessus (BEV) supervisé par espace perspective, qui converge plus rapidement et s’intègre mieux aux architectures modernes d’images. Les détecteurs BEV d’état de l’art actuels sont souvent associés à des architectures pré-entraînées en profondeur spécifiques, comme VoVNet, ce qui limite l’harmonisation entre les architectures d’images en plein essor et les détecteurs BEV. Pour surmonter cette limitation, nous privilégions une simplification de l’optimisation des détecteurs BEV en introduisant une supervision dans l’espace perspective. À cette fin, nous proposons un détecteur BEV en deux étapes, où les propositions issues de la tête perspective sont transmises à la tête vue de dessus pour produire les prédictions finales. Pour évaluer l’efficacité de notre modèle, nous menons des études ablatives approfondies portant sur la forme de la supervision et la généralité du détecteur proposé. La méthode proposée est validée sur une large gamme d’architectures d’images traditionnelles et modernes, et atteint de nouveaux résultats SOTA sur le grand jeu de données nuScenes. Le code sera bientôt publié.