TransMVSNet: Globales kontextbewusstes Multi-View-Stereo-Netzwerk mit Transformers

In diesem Paper stellen wir TransMVSNet vor, das auf unserer Untersuchung der Merkmalsübereinstimmung im Multi-View-Stereo (MVS) basiert. Wir interpretieren MVS erneut als eine Aufgabe der Merkmalsübereinstimmung und schlagen daher einen leistungsstarken Feature Matching Transformer (FMT) vor, der intra-(selbst-) und inter-(kreuz-) Aufmerksamkeit nutzt, um langreichweitige Kontextinformationen innerhalb und zwischen Bildern zu aggregieren. Um eine bessere Anpassung des FMT zu ermöglichen, integrieren wir ein adaptives Rezeptivfeld-Modul (Adaptive Receptive Field, ARF), um einen reibungslosen Übergang in den Merkmalsbereichen sicherzustellen, und verwenden einen Merkmalspfad, um transformierte Merkmale und Gradienten über verschiedene Skalen hinweg zu übertragen. Zudem wenden wir paarweise Merkmalskorrelation an, um die Ähnlichkeit zwischen Merkmalen zu messen, und setzen eine unscharfkeitsreduzierende Fokalverlustfunktion ein, um die Supervision zu verstärken. Soweit uns bekannt ist, ist TransMVSNet der erste Versuch, den Transformer in die Aufgabe des MVS einzuführen. Als Ergebnis erreicht unsere Methode den Stand der Technik auf dem DTU-Datensatz, dem Tanks and Temples-Benchmark sowie dem BlendedMVS-Datensatz. Der Quellcode unserer Methode wird unter https://github.com/MegviiRobot/TransMVSNet verfügbar gemacht.