iLRM: Ein iteratives großes Modell zur 3D-Rekonstruktion

Die Feed-forward-3D-Modellierung ist zu einem vielversprechenden Ansatz für eine schnelle und qualitativ hochwertige 3D-Rekonstruktion geworden. Insbesondere die direkte Erzeugung expliziter 3D-Darstellungen, wie beispielsweise 3D-Gauß-Splatting, hat aufgrund ihrer schnellen und qualitativ hochwertigen Darstellung sowie ihrer vielfältigen Anwendungen erhebliche Aufmerksamkeit erfahren. Allerdings leiden viele aktuelle State-of-the-Art-Methoden, die hauptsächlich auf Transformer-Architekturen basieren, unter gravierenden Skalierbarkeitsproblemen, da sie eine vollständige Aufmerksamkeit über alle Bild-Token mehrerer Eingabebilder erfordern, was bei steigender Anzahl an Ansichten oder höherer Bildauflösung zu unvertretbar hohen Rechenkosten führt. Um eine skalierbare und effiziente Feed-forward-3D-Rekonstruktion zu erreichen, stellen wir ein iteratives großes 3D-Rekonstruktionsmodell (iLRM) vor, das 3D-Gauß-Darstellungen durch ein iteratives Verfeinerungsverfahren generiert und dabei drei zentrale Prinzipien befolgt: (1) Trennung der Szenendarstellung von den Eingabebildern, um kompakte 3D-Darstellungen zu ermöglichen; (2) Zerlegung der vollständig auf Aufmerksamkeit basierenden Interaktionen zwischen mehreren Ansichten in ein zweistufiges Aufmerksamkeitsverfahren, um die Rechenkosten zu senken; und (3) Einbindung hochauflösender Informationen in jeder Schicht, um eine hochfidele Rekonstruktion zu erreichen. Experimentelle Ergebnisse auf weit verbreiteten Datensätzen wie RE10K und DL3DV zeigen, dass iLRM bestehende Methoden sowohl hinsichtlich der Rekonstruktionsqualität als auch der Geschwindigkeit übertrifft. Insbesondere zeichnet sich iLRM durch eine herausragende Skalierbarkeit aus und erreicht bei vergleichbaren Rechenkosten deutlich höhere Rekonstruktionsqualität, indem es eine größere Anzahl von Eingabebildern effizient nutzt.