HyperAIHyperAI

Command Palette

Search for a command to run...

Verallgemeinertes Binäres Suchnetzwerk für hoch-effizientes Multi-View-Stereo

Zhenxing Mi; Di Chang; Dan Xu

Zusammenfassung

Multi-View-Stereobildverarbeitung (MVS) mit bekannten Kameraparametern ist im Wesentlichen ein eindimensionales Suchproblem innerhalb eines gültigen Tiefenbereichs. Neuere MVS-Methoden, die auf tiefem Lernen basieren, sampeln in der Regel dicht Tiefenhypothesen im Tiefenbereich und konstruieren dann 3D-Kostenvolumina, die den Speicherverbrauch unerträglich erhöhen. Obwohl grob-zu-fein Sampelstrategien dieses Problem bis zu einem gewissen Grad lindern, bleibt die Effizienz von MVS eine offene Herausforderung. In dieser Arbeit schlagen wir eine neuartige Methode für hoch effizientes MVS vor, die den Speicherbedarf erheblich reduziert und gleichzeitig den Stand der Technik bei der Tiefenschätzung deutlich verbessert. Wir untersuchen, welche Suchstrategie unter Berücksichtigung von Effizienz und Effektivität für MVS angemessen optimal sein kann. Zunächst formulieren wir MVS als ein binäres Suchproblem und schlagen dazu ein verallgemeinertes binäres Suchnetzwerk für MVS vor. Insbesondere wird in jedem Schritt der Tiefenbereich in 2 Bins aufgeteilt, wobei jeweils 1 zusätzlicher Fehler-Toleranz-Bin auf beiden Seiten hinzugefügt wird. Eine Klassifizierung wird durchgeführt, um zu bestimmen, welcher Bin die wahre Tiefe enthält. Wir haben auch drei Mechanismen entwickelt, um Klassifizierungsfehler zu behandeln, außerhalb des Bereichs liegende Sampels zu verwalten und den Trainings-Speicherverbrauch zu verringern. Die neue Formulierung ermöglicht es unserer Methode, in jedem Schritt nur eine sehr geringe Anzahl von Tiefenhypothesen zu sampeln, was hoch speicher-effizient ist und zudem eine schnelle Konvergenz des Trainings stark fördert. Experimente an wettbewerbsfähigen Benchmarks zeigen, dass unsere Methode mit viel weniger Speicher den aktuellen Stand der Technik erreicht. Insbesondere erreicht unsere Methode einen Gesamtscore von 0{,}289 auf dem DTU-Datensatz und nimmt unter allen lernbasierten Methoden den ersten Platz im anspruchsvollen Tanks and Temples Advanced-Datensatz ein. Die trainierten Modelle und der Code werden unter https://github.com/MiZhenxing/GBi-Net veröffentlicht werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp