HyperAIHyperAI

Command Palette

Search for a command to run...

MVSFormer++ : Révéler le Diable dans les Détails du Transformer pour la Stéréo Multi-Vue

Chenjie Cao extsuperscript1,2,3,*† Xinlin Ren extsuperscript3,* Yanwei Fu extsuperscript1‡

Résumé

Les récentes avancées dans les méthodes de stéréoscopie multi-vue (MVS) basées sur l'apprentissage ont mis en avant les modèles à base de transformateurs avec des mécanismes d'attention. Cependant, les approches existantes n'ont pas suffisamment exploré l'influence profonde des transformeurs sur différents modules MVS, ce qui a entraîné des capacités limitées d'estimation de profondeur. Dans cet article, nous présentons MVSFormer++, une méthode qui optimise judicieusement les caractéristiques inhérentes de l'attention pour améliorer divers composants du pipeline MVS. Formellement, notre approche consiste à intégrer des informations inter-vues dans le modèle DINOv2 pré-entraîné afin de faciliter l'apprentissage MVS. De plus, nous utilisons différents mécanismes d'attention pour le codage des caractéristiques et la régularisation du volume de coût, en mettant l'accent respectivement sur l'agrégation des caractéristiques et l'agrégation spatiale. Nous révélons également que certains détails de conception peuvent avoir un impact considérable sur les performances des modules de transformateur en MVS, notamment le codage positionnel 3D normalisé, l'échelle d'attention adaptative et la position de la normalisation par couche. Des expériences exhaustives menées sur DTU, Tanks-and-Temples, BlendedMVS et ETH3D valident l'efficacité de la méthode proposée. Notamment, MVSFormer++ atteint des performances de pointe sur les benchmarks difficiles DTU et Tanks-and-Temples.Note : - "DTU" est généralement conservé tel quel en français.- "Tanks-and-Temples" est également conservé tel quel car c'est le nom d'un benchmark spécifique.- "BlendedMVS" est conservé tel quel car c'est le nom d'une base de données spécifique.- "ETH3D" est conservé tel quel car c'est le nom d'une base de données spécifique issue de l'Eidgenössische Technische Hochschule Zürich (ETH Zurich).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MVSFormer++ : Révéler le Diable dans les Détails du Transformer pour la Stéréo Multi-Vue | Articles | HyperAI