HyperAIHyperAI
vor 9 Tagen

Zeitliche Ansichtssynthese dynamischer Szenen durch die Schätzung der 3D-Objektbewegung mit Multi-Plane-Bildern

Nagabhushan Somraj, Pranali Sancheti, Rajiv Soundararajan
Zeitliche Ansichtssynthese dynamischer Szenen durch die Schätzung der 3D-Objektbewegung mit Multi-Plane-Bildern
Abstract

Die Herausforderung der grafischen Darstellung von Videos mit hoher Bildwiederholfrequenz auf Geräten mit geringer Rechenleistung kann durch die periodische Vorhersage zukünftiger Frames zur Verbesserung der Benutzererfahrung in Anwendungen der virtuellen Realität adressiert werden. Dies wird im Rahmen des Problems der zeitlichen Ansichtssynthese (Temporal View Synthesis, TVS) untersucht, bei dem das Ziel darin besteht, die nächsten Frames eines Videos basierend auf den vorherigen Frames sowie den Kopfpositionen der vorherigen und der nächsten Frames vorherzusagen. In dieser Arbeit betrachten wir die TVS dynamischer Szenen, in denen sowohl der Benutzer als auch Objekte sich bewegen. Wir entwickeln einen Rahmen, der die Bewegung in Benutzer- und Objektbewegung entkoppelt, um die verfügbare Benutzerbewegung effizient bei der Vorhersage der nächsten Frames zu nutzen. Die Objektbewegung wird vorhergesagt, indem die 3D-Bewegung der Objekte in den vorherigen Frames isoliert und geschätzt wird, um sie anschließend zu extrapolieren. Als 3D-Darstellung der Szenen verwenden wir Multi-Plane-Bilder (Multi-Plane Images, MPI) und modellieren die Objektbewegung als 3D-Verschiebung zwischen entsprechenden Punkten in der MPI-Darstellung. Um die Sparsamkeit in den MPIs bei der Bewegungsschätzung zu bewältigen, integrieren wir partielle Konvolutionen und maskierte Korrelationslayer zur Schätzung entsprechender Punkte. Die vorhergesagte Objektbewegung wird dann mit der gegebenen Benutzer- oder Kamerabewegung kombiniert, um den nächsten Frame zu generieren. Mittels eines Disokklusion-Auffüllmoduls synthetisieren wir die Bereiche, die infolge der Kamera- und Objektbewegung freigelegt wurden. Wir erstellen eine neue synthetische Datensammlung für die TVS dynamischer Szenen mit insgesamt 800 Videos in Full-HD-Auflösung. Experimente an unserer Datensammlung sowie an der MPI Sintel-Datensammlung zeigen, dass unser Modell alle bisherigen Ansätze in der Literatur übertrifft.

Zeitliche Ansichtssynthese dynamischer Szenen durch die Schätzung der 3D-Objektbewegung mit Multi-Plane-Bildern | Neueste Forschungsarbeiten | HyperAI