Forscher ermöglichen 3D-Volumenvideostreaming
Wissenschaftler der Brown University haben einen bedeutenden Fortschritt bei der Streaming-Fähigkeit von volumetrischem Video erzielt. Volumetrisches Video ermöglicht es Betrachtern, eine Szene aus beliebigen Perspektiven in 3D zu erkunden, indem es nicht nur den visuellen Raum, sondern auch die Zeit erfasst. Damit wird im Grunde ein 4D-Erlebnis geschaffen. Derzeit stellt jedoch die enorme Datenmenge und die Inkompatibilität mit bestehenden Internet-Infrastrukturen ein großes Hindernis für die praktische Nutzung dar. Eine Forschungsgruppe unter der Leitung des Doktoranden Aashish Rai hat eine neue Verarbeitungsmethode namens PackUV entwickelt. Dieses System zielt darauf ab, komplexe 4D-Szenen in ein normales Video-Format zu konvertieren, das über das Internet gestreamt, gespeichert und mit gängigen Video-Codecs kompatibel ist. Die Basis für die Lösung bildet die Technologie des 3D-Gaussian-Splatting, die bereits für hochwertige 3D-Wiedergaben bekannt ist, jedoch oft zu sehr großen Dateigrößen führt. Das Kernproblem beim herkömmlichen 3D-Gaussian-Splatting liegt in der Effizienz und der Handhabung langer Aufnahmesequenzen. Während die Methode kurze Clips gut bewältigt, bricht sie bei längeren Videos oft zusammen, wenn sich Objekte hinter anderen verbergen oder wenn neue Personen in die Szene eintreten. Die Forscher umgingen diese Schwierigkeit durch zwei zentrale Innovationen. Zum einen entwickelten sie einen Weg, die Millionen von Datenpunkten einer 3D-Szene in ein strukturiertes, mehrstufiges 2D-Bild zu projizieren. Dieser Prozess ähnelt der Kartierung der Erdoberfläche auf eine flache Weltkarte. Durch das Stapeln dieser Bilder entsteht ein Video mit vernünftiger Dateigröße, das problemlos auf Plattformen wie Netflix oder YouTube läuft. Zum zweiten adressierten sie das Problem der Objektnachverfolgung über längere Zeiträume. Anstatt die Verfolgung durchgehend durchzuführen, teilen die Algorithmen das lange Video in kleinere Segmente auf. Zu Beginn jedes neuen Segments wird erneut geprüft, ob sich Objekte bewegt haben, eingetroffen oder verlassen wurden. Dieser häufigere Neustart der Verfolgung ermöglicht es dem System, Objekte neu zu erfassen, die zuvor verdeckt waren, und mit neuen Bewegungen flexibel umzugehen. Dadurch kann die Technik Szenen von bis zu 30 Minuten Länge rendern, ohne an Genauigkeit zu verlieren. Um die Leistung der neuen Methode zu validieren, entwickelten die Forscher den derzeit größten Datensatz für Multi-View-Video. Dieser umfasst Aufnahmen von 50 bis 90 synchronisierten Kameras, die eine Vielzahl von Aktivitäten wie Basketball, Pickelball, Kochen und handwerkliche Arbeiten festhielten. Die Daten wurden sowohl in einem speziellen Labor als auch in der realen Welt mit mobilen Kameraarrays erfasst. Das gesamte Dataset ist für die wissenschaftliche Gemeinschaft frei verfügbar. Der Professor für Informatik Srinath Sridhar, der das Labor leitet, sieht in dieser Technologie ein breites Zukunftspotenzial. Neben Anwendungen im Unterhaltungsbereich und im Sportbereich ermöglicht die Methode die Erstellung digitaler Zwillinge der realen Welt. Dies ist besonders wertvoll für Bereiche wie die Fertigung, wo präzise 3D-Rekonstruktionen notwendig sind. Mit PackUV wird die Technologie somit nicht nur theoretisch möglich, sondern auch praktisch für den breiten Einsatz über das Internet geeignet. Die Ergebnisse der Forschung werden im Juni auf der IEEE/CVF-Konferenz für Computer Vision und Mustererkennung präsentiert.
