MVSFormer: Multi-View Stereo durch robuste Bildmerkmale und temperaturbasierte Tiefenschätzunglernen

Die Merkmalsrepräsentationslernen sind das entscheidende Rezept für lernbasierte Multi-View Stereo (MVS). Als gängiger Merkmalsextraktor in lernbasierter MVS leiden herkömmliche Feature Pyramid Networks (FPNs) unter mangelhaften Merkmalsrepräsentationen für reflektive und texturfreie Bereiche, was die Generalisierung von MVS einschränkt. Selbst FPNs, die mit vorab trainierten Faltungsneuralnetzen (CNNs) arbeiten, scheitern daran, diese Probleme zu lösen. Andererseits haben Vision Transformers (ViTs) in vielen 2D-Vision-Aufgaben einen bemerkenswerten Erfolg erzielt. Daher stellt sich die Frage, ob ViTs das Merkmalslernen in MVS fördern können? In dieser Arbeit schlagen wir ein durch vorab trainierte ViTs verstärktes MVS-Netzwerk namens MVSFormer vor, das dank informativer Vorinformationen aus ViT verlässlichere Merkmalsrepräsentationen lernen kann. Das feinjustierte MVSFormer mit hierarchischen ViTs und effizienten Aufmerksamkeitsmechanismen kann auf Basis von FPNs eine bemerkenswerte Verbesserung erreichen. Darüber hinaus wird eine alternative Version von MVSFormer vorgeschlagen, bei der die Gewichte der ViTs fixiert sind. Dies reduziert den Trainingsaufwand erheblich und verbessert die Leistung durch die Aufmerksamkeitskarte aus dem selbstdistillierten Vortrainieren. MVSFormer kann auf verschiedene Eingabeauflösungen verallgemeinert werden, unterstützt durch effizientes mehrskaliges Training mit Gradientenakkumulation. Des Weiteren diskutieren wir die Vor- und Nachteile von klassifikations- und regressionsbasierten MVS-Methoden und schlagen eine Vereinheitlichung mittels einer temperaturbasierten Strategie vor. MVSFormer erzielt Spitzenleistungen im DTU-Datensatz. Insbesondere rangiert MVSFormer an ersteller Stelle sowohl im intermediären als auch im fortgeschrittenen Teil des hochwettbewerbsintensiven Tanks-and-Temples-Leaderboards.