Gear-NeRF: Frei-Viewpoint-Rendering und Tracking mit bewegungsaware räumlich-zeitlicher Abtastung

Erweiterungen von Neural Radiance Fields (NeRFs) zur Modellierung dynamischer Szenen haben deren nahezu foto-realistische, frei perspektivische Darstellung ermöglicht. Obwohl diese Methoden ein gewisses Potenzial für die Schaffung immersiver Erlebnisse zeigen, behindern zwei Nachteile ihre breite Verbreitung: (i) eine erhebliche Reduktion der Rekonstruktionsqualität bei begrenztem Rechenbudget und (ii) ein Mangel an semantischer Verständnis der zugrundeliegenden Szenen. Um diese Probleme anzugehen, stellen wir Gear-NeRF vor, das semantische Informationen aus leistungsfähigen Bildsegmentierungsmodellen nutzt. Unser Ansatz bietet eine konsistente Methode zur Lernung einer raumzeitlichen (4D) semantischen Einbettung, auf deren Basis wir den Begriff der „Gänge“ einführen, um eine geschichtete Modellierung dynamischer Szenenbereiche basierend auf der Ausdehnung ihrer Bewegung zu ermöglichen. Diese Unterscheidung erlaubt es uns, die raumzeitliche Abtastungsdichte für jeden Bereich proportional zu seiner Bewegungsskala anzupassen und somit eine photo-realistischere Synthese neuer Perspektiven dynamischer Szenen zu erreichen. Gleichzeitig ermöglicht unsere Methode nahezu kostenfrei die frei perspektivische Verfolgung von interessanten Objekten – eine Funktionalität, die bisher bei bestehenden NeRF-basierten Methoden nicht realisiert wurde. Empirische Studien bestätigen die Wirksamkeit unseres Ansatzes, wobei wir auf mehreren anspruchsvollen Datensätzen state-of-the-art Ergebnisse sowohl in Bezug auf die Darstellung als auch auf die Verfolgung erzielen.