Sem2NeRF: Konvertierung von Einzelansicht-Semantischen Masken in Neuronale Strahlungsfelder

Bildübersetzung und -manipulation haben mit der raschen Entwicklung tiefer generativer Modelle zunehmend an Bedeutung gewonnen. Obwohl bestehende Ansätze beeindruckende Ergebnisse erzielt haben, operierten sie hauptsächlich im 2D-Raum. Angesichts jüngster Fortschritte bei NeRF-basierten 3D-bewussten generativen Modellen führen wir eine neue Aufgabe ein: die semantische Übersetzung in NeRF (Semantic-to-NeRF translation), die das Ziel verfolgt, eine durch NeRF modellierte 3D-Szene unter der Voraussetzung eines einzigen semantischen Eingabemaskenbildes zu rekonstruieren. Um diese neuartige Aufgabe in Angriff zu nehmen, schlagen wir den Sem2NeRF-Framework vor. Insbesondere adressiert Sem2NeRF die äußerst anspruchsvolle Aufgabe, indem es das semantische Maskenbild in einen latenten Code kodiert, der die 3D-Szenendarstellung eines vortrainierten Decoders steuert. Um die Genauigkeit der Abbildung weiter zu verbessern, integrieren wir eine neuartige regionale Lernstrategie sowohl in den Entwurf des Encoders als auch des Decoders. Wir überprüfen die Effektivität des vorgeschlagenen Sem2NeRF und zeigen, dass es auf zwei Benchmark-Datensätzen mehrere starke Baseline-Methoden übertrifft. Der Quellcode und ein Video sind unter https://donydchen.github.io/sem2nerf/ verfügbar.