HyperAIHyperAI

Command Palette

Search for a command to run...

MVSFormer: Multi-View Stereo durch robuste Bildmerkmale und temperaturbasierte Tiefenschätzunglernen

Chenjie Cao Xinlin Ren Yanwei Fu*

Zusammenfassung

Die Merkmalsrepräsentationslernen sind das entscheidende Rezept für lernbasierte Multi-View Stereo (MVS). Als gängiger Merkmalsextraktor in lernbasierter MVS leiden herkömmliche Feature Pyramid Networks (FPNs) unter mangelhaften Merkmalsrepräsentationen für reflektive und texturfreie Bereiche, was die Generalisierung von MVS einschränkt. Selbst FPNs, die mit vorab trainierten Faltungsneuralnetzen (CNNs) arbeiten, scheitern daran, diese Probleme zu lösen. Andererseits haben Vision Transformers (ViTs) in vielen 2D-Vision-Aufgaben einen bemerkenswerten Erfolg erzielt. Daher stellt sich die Frage, ob ViTs das Merkmalslernen in MVS fördern können? In dieser Arbeit schlagen wir ein durch vorab trainierte ViTs verstärktes MVS-Netzwerk namens MVSFormer vor, das dank informativer Vorinformationen aus ViT verlässlichere Merkmalsrepräsentationen lernen kann. Das feinjustierte MVSFormer mit hierarchischen ViTs und effizienten Aufmerksamkeitsmechanismen kann auf Basis von FPNs eine bemerkenswerte Verbesserung erreichen. Darüber hinaus wird eine alternative Version von MVSFormer vorgeschlagen, bei der die Gewichte der ViTs fixiert sind. Dies reduziert den Trainingsaufwand erheblich und verbessert die Leistung durch die Aufmerksamkeitskarte aus dem selbstdistillierten Vortrainieren. MVSFormer kann auf verschiedene Eingabeauflösungen verallgemeinert werden, unterstützt durch effizientes mehrskaliges Training mit Gradientenakkumulation. Des Weiteren diskutieren wir die Vor- und Nachteile von klassifikations- und regressionsbasierten MVS-Methoden und schlagen eine Vereinheitlichung mittels einer temperaturbasierten Strategie vor. MVSFormer erzielt Spitzenleistungen im DTU-Datensatz. Insbesondere rangiert MVSFormer an ersteller Stelle sowohl im intermediären als auch im fortgeschrittenen Teil des hochwettbewerbsintensiven Tanks-and-Temples-Leaderboards.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp