HyperAIHyperAI
vor 2 Monaten

MVSFormer++: Die Teufelsdetails im Transformer für Multi-View-Stereo aufdecken

Chenjie Cao; Xinlin Ren; Yanwei Fu
MVSFormer++: Die Teufelsdetails im Transformer für Multi-View-Stereo aufdecken
Abstract

Neuere Fortschritte bei lernbasierten Methoden für Multi-View Stereo (MVS) haben vor allem transformerbasierte Modelle mit Aufmerksamkeitsmechanismen hervorgehoben. Dennoch haben bisherige Ansätze die tiefgreifende Auswirkungen von Transformatoren auf verschiedene MVS-Module nicht ausreichend untersucht, was zu begrenzten Tiefenschätzfähigkeiten führt. In dieser Arbeit stellen wir MVSFormer++ vor, eine Methode, die vorsichtig die inhärenten Eigenschaften der Aufmerksamkeit maximiert, um verschiedene Komponenten des MVS-Prozesses zu verbessern. Formal besteht unser Ansatz darin, Informationen über mehrere Ansichten in das vortrainierte DINOv2-Modell zu integrieren, um das Lernen von MVS zu erleichtern. Darüber hinaus verwenden wir unterschiedliche Aufmerksamkeitsmechanismen für den Feature-Encoder und die Regularisierung des Kostenvolumens, wobei wir uns auf die Aggregation von Features und räumlichen Informationen konzentrieren. Zudem zeigen wir, dass bestimmte Designaspekte erheblich den Leistungsfähigkeiten der Transformer-Module in MVS zukommen können, einschließlich normierter 3D-Positionscodierung, adaptiver Aufmerksamkeitsskalierung und der Position der Layernormalisierung. Umfassende Experimente auf DTU, Tanks-and-Temples, BlendedMVS und ETH3D bestätigen die Effektivität der vorgeschlagenen Methode. Bemerkenswerterweise erreicht MVSFormer++ standesgemäße Leistungen bei den anspruchsvollen Benchmarks DTU und Tanks-and-Temples.

MVSFormer++: Die Teufelsdetails im Transformer für Multi-View-Stereo aufdecken | Neueste Forschungsarbeiten | HyperAI