Multi-View-3D-Rekonstruktion mit Transformer

Bislang haben tiefes CNN-basierte Methoden die bisher besten Ergebnisse bei der Mehransicht-3D-Objektrekonstruktion erzielt. Trotz erheblicher Fortschritte werden die beiden zentralen Module dieser Ansätze – die Mehransicht-Featureextraktion und -Fusion – häufig getrennt untersucht, und die Beziehungen zwischen Objekten in verschiedenen Ansichten werden selten analysiert. In dieser Arbeit lassen wir uns von den jüngsten großen Erfolgen selbst-Attention-basierter Transformer-Modelle inspirieren und reformulieren das Problem der Mehransicht-3D-Rekonstruktion als ein Sequenz-zu-Sequenz-Vorhersageproblem. Darauf aufbauend stellen wir einen neuen Rahmen namens 3D Volume Transformer (VolT) vor. Im Gegensatz zu früheren CNN-basierten Ansätzen mit getrennter Architektur integrieren wir Featureextraktion und Ansichtsfusion in einem einzigen Transformer-Netzwerk. Ein natürlicher Vorteil unserer Architektur liegt in der Nutzung von Selbst-Attention zwischen mehreren ungeordneten Eingaben zur Exploration von Beziehungen zwischen Ansichten. Auf ShapeNet – einer großen Benchmark-Datenbank für 3D-Rekonstruktion – erreicht unsere Methode eine neue state-of-the-art Genauigkeit bei der Mehransicht-Rekonstruktion mit deutlich weniger Parametern (70 % weniger) im Vergleich zu anderen CNN-basierten Methoden. Experimentelle Ergebnisse deuten zudem auf eine starke Skalierbarkeit unserer Methode hin. Der Quellcode wird öffentlich verfügbar gemacht.