HyperAIHyperAI
il y a 3 mois

MV-DETR : Détection d'objets en intérieur multi-modalité par Transformers de détection multi-vues

Zichao Dong, Yilin Zhang, Xufeng Huang, Hang Ji, Zhan Shi, Xin Zhan, Junbo Chen
MV-DETR : Détection d'objets en intérieur multi-modalité par Transformers de détection multi-vues
Résumé

Nous introduisons une nouvelle pipeline MV-DETR, une méthode efficace et performante basée sur les transformeurs pour la détection. En prenant en entrée des données RGBD, nous observons que des poids de pré-entraînement très puissants existent pour les données RGB, tandis que les performances sur les données de profondeur sont nettement moins satisfaisantes. Premièrement, nous soutenons que les informations géométriques et texturales sont toutes deux essentielles, mais peuvent être encodées de manière séparée. Deuxièmement, nous constatons que l'extraction des caractéristiques texturales visuelles est plus difficile que celle des caractéristiques géométriques dans l'espace 3D. Malheureusement, un seul jeu de données RGBD contenant quelques milliers d'images ne suffit pas à entraîner un filtre discriminant capable d'extraire efficacement les caractéristiques texturales visuelles. Enfin, nous avons conçu un module léger VG composé d’un encodeur visuel-textuel, d’un encodeur géométrique et d’un connecteur VG. Par rapport aux méthodes de pointe précédentes telles que V-DETR, les bénéfices provenant de l’encodeur visuel pré-entraîné sont clairement observables. Des expériences étendues sur le jeu de données ScanNetV2 démontrent l’efficacité de notre approche. Il est à noter que notre méthode atteint un AP de 78 %, établissant ainsi un nouveau record sur le benchmark ScanNetV2.