PETRv2 : Un cadre unifié pour la perception 3D à partir d'images multicaméra

Dans cet article, nous proposons PETRv2, un cadre unifié pour la perception 3D à partir d'images multi-vues. Basé sur PETR, PETRv2 explore l'efficacité de la modélisation temporelle, qui utilise les informations temporelles des cadres précédents pour améliorer la détection d'objets 3D. Plus précisément, nous étendons le codage de position 3D (3D PE) dans PETR pour la modélisation temporelle. Le 3D PE réalise l'alignement temporel des positions des objets entre différents cadres. Un encodeur de position guidé par les caractéristiques est également introduit pour améliorer l'adaptabilité des données du 3D PE. Pour soutenir l'apprentissage multi-tâches (par exemple, la segmentation en vue bird's-eye et la détection de voies 3D), PETRv2 fournit une solution simple mais efficace en introduisant des requêtes spécifiques à chaque tâche, qui sont initialisées dans différents espaces. PETRv2 atteint des performances de pointe en détection d'objets 3D, segmentation en vue bird's-eye et détection de voies 3D. Une analyse détaillée de la robustesse est également menée sur le cadre PETR. Nous espérons que PETRv2 puisse servir de solide référence pour la perception 3D. Le code source est disponible à l'adresse \url{https://github.com/megvii-research/PETR}.