HyperAIHyperAI

Command Palette

Search for a command to run...

MV-DETR : Détection d'objets en intérieur multi-modalité par Transformers de détection multi-vues

Zichao Dong Yilin Zhang Xufeng Huang Hang Ji Zhan Shi Xin Zhan Junbo Chen

Résumé

Nous introduisons une nouvelle pipeline MV-DETR, une méthode efficace et performante basée sur les transformeurs pour la détection. En prenant en entrée des données RGBD, nous observons que des poids de pré-entraînement très puissants existent pour les données RGB, tandis que les performances sur les données de profondeur sont nettement moins satisfaisantes. Premièrement, nous soutenons que les informations géométriques et texturales sont toutes deux essentielles, mais peuvent être encodées de manière séparée. Deuxièmement, nous constatons que l'extraction des caractéristiques texturales visuelles est plus difficile que celle des caractéristiques géométriques dans l'espace 3D. Malheureusement, un seul jeu de données RGBD contenant quelques milliers d'images ne suffit pas à entraîner un filtre discriminant capable d'extraire efficacement les caractéristiques texturales visuelles. Enfin, nous avons conçu un module léger VG composé d’un encodeur visuel-textuel, d’un encodeur géométrique et d’un connecteur VG. Par rapport aux méthodes de pointe précédentes telles que V-DETR, les bénéfices provenant de l’encodeur visuel pré-entraîné sont clairement observables. Des expériences étendues sur le jeu de données ScanNetV2 démontrent l’efficacité de notre approche. Il est à noter que notre méthode atteint un AP de 78 %, établissant ainsi un nouveau record sur le benchmark ScanNetV2.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MV-DETR : Détection d'objets en intérieur multi-modalité par Transformers de détection multi-vues | Articles | HyperAI