HyperAIHyperAI

Command Palette

Search for a command to run...

TransMVSNet: Globales kontextbewusstes Multi-View-Stereo-Netzwerk mit Transformers

Yikang Ding Wentao Yuan Qingtian Zhu Haotian Zhang Xiangyue Liu Yuanjiang Wang Xiao Liu

Zusammenfassung

In diesem Paper stellen wir TransMVSNet vor, das auf unserer Untersuchung der Merkmalsübereinstimmung im Multi-View-Stereo (MVS) basiert. Wir interpretieren MVS erneut als eine Aufgabe der Merkmalsübereinstimmung und schlagen daher einen leistungsstarken Feature Matching Transformer (FMT) vor, der intra-(selbst-) und inter-(kreuz-) Aufmerksamkeit nutzt, um langreichweitige Kontextinformationen innerhalb und zwischen Bildern zu aggregieren. Um eine bessere Anpassung des FMT zu ermöglichen, integrieren wir ein adaptives Rezeptivfeld-Modul (Adaptive Receptive Field, ARF), um einen reibungslosen Übergang in den Merkmalsbereichen sicherzustellen, und verwenden einen Merkmalspfad, um transformierte Merkmale und Gradienten über verschiedene Skalen hinweg zu übertragen. Zudem wenden wir paarweise Merkmalskorrelation an, um die Ähnlichkeit zwischen Merkmalen zu messen, und setzen eine unscharfkeitsreduzierende Fokalverlustfunktion ein, um die Supervision zu verstärken. Soweit uns bekannt ist, ist TransMVSNet der erste Versuch, den Transformer in die Aufgabe des MVS einzuführen. Als Ergebnis erreicht unsere Methode den Stand der Technik auf dem DTU-Datensatz, dem Tanks and Temples-Benchmark sowie dem BlendedMVS-Datensatz. Der Quellcode unserer Methode wird unter https://github.com/MegviiRobot/TransMVSNet verfügbar gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
TransMVSNet: Globales kontextbewusstes Multi-View-Stereo-Netzwerk mit Transformers | Paper | HyperAI