STream3R: Skalierbare sequentielle 3D-Rekonstruktion mit kausalem Transformer

Wir stellen STream3R vor, einen neuartigen Ansatz zur 3D-Rekonstruktion, der die Vorhersage von Pointmaps als ein Decoder-only Transformer-Problem neu formuliert. Bestehende State-of-the-Art-Methoden für die Mehransicht-Rekonstruktion beruhen entweder auf rechenintensiven globalen Optimierungsverfahren oder auf vereinfachten Speichermechanismen, die sich schlecht mit steigender Sequenzlänge skalieren. Im Gegensatz dazu führt STream3R einen Streaming-Framework ein, das Bildsequenzen effizient mittels kausaler Aufmerksamkeit verarbeitet – inspiriert durch Fortschritte in der modernen Sprachmodellierung. Durch das Lernen geometrischer Priorwissen aus großskaligen 3D-Datensätzen generalisiert STream3R hervorragend auf vielfältige und anspruchsvolle Szenarien, einschließlich dynamischer Umgebungen, in denen herkömmliche Methoden oft versagen. Ausführliche Experimente zeigen, dass unsere Methode sowohl auf statischen als auch auf dynamischen Szenarien stets die vorhergehenden Ansätze übertrifft. Zudem ist STream3R inhärent kompatibel mit der Training-Infrastruktur von LLMs (Large Language Models), was eine effiziente Großskalenvortrainierung und Feinabstimmung für diverse nachgelagerte 3D-Aufgaben ermöglicht. Unsere Ergebnisse unterstreichen das Potenzial kausaler Transformer-Modelle für die Echtzeit-3D-Wahrnehmung und eröffnen den Weg für die Echtzeit-3D-Verarbeitung in Streaming-Umgebungen. Weitere Details finden sich auf unserer Projektseite: https://nirvanalan.github.io/projects/stream3r.