RTMV: Ein ray-tracender Mehransichtssynthesedatensatz für die Neuaufnahme von Ansichten

Wir präsentieren einen großskaligen synthetischen Datensatz für die Neuperspektivierung, bestehend aus etwa 300.000 Bildern, die aus nahezu 2.000 komplexen Szenen mittels hochwertiger Strahlenverfolgung in hoher Auflösung (1600 × 1600 Pixel) gerendert wurden. Der Datensatz ist um Größenordnungen größer als bisher verfügbare synthetische Datensätze für die Neuperspektivierung und bietet somit eine umfassende, einheitliche Benchmark sowohl für das Training als auch die Evaluation. Durch die Nutzung von vier unterschiedlichen Quellen hochwertiger 3D-Meshes zeigen die Szenen unseres Datensatzes herausfordernde Variationen in Kameraperspektiven, Beleuchtung, Form, Materialien und Textur. Da unser Datensatz für bestehende Methoden zu groß ist, schlagen wir SVLF (Sparse Voxel Light Field) vor – einen effizienten, auf Voxel basierenden Ansatz für die Neuperspektivierung, der eine Leistung vergleichbar mit NeRF auf synthetischen Daten erreicht, gleichzeitig aber um eine Größenordnung schneller zum Trainieren und um zwei Größenordnungen schneller zum Rendern ist. Diese Geschwindigkeitssteigerung wird durch die Verwendung eines sparsen Voxel-Octrees, eine sorgfältige Voxel-Probenahme (die nur wenige Abfragen pro Strahl erfordert) sowie eine vereinfachte Netzwerkarchitektur sowie die Nutzung von Ground-Truth-Tiefenkarten während des Trainings ermöglicht. Der Datensatz wurde mit NViSII, einem auf Python basierenden Strahlenverfolgungs-Renderer, generiert, der darauf ausgelegt ist, einfach für Nichtexperten nutzbar und austauschbar zu sein, durch die Verwendung von Skripten flexibel und leistungsstark zu sein und hochwertige, physikalisch fundierte Bilder zu erzeugen. Experimente mit einer Teilmenge unseres Datensatzes ermöglichen den Vergleich etablierter Methoden wie NeRF und mip-NeRF für die Einzelszenenmodellierung sowie pixelNeRF für die Kategorien-Level-Modellierung und weisen auf die Notwendigkeit zukünftiger Verbesserungen in diesem Bereich hin.