Rekonstruktion der 4D räumlichen Intelligenz: Eine Übersicht

Die Rekonstruktion von 4D-räumlicher Intelligenz anhand visueller Beobachtungen ist seit langem eine zentrale, jedoch herausfordernde Aufgabe in der Computervision mit breiten Anwendungen in der realen Welt. Diese reichen von Unterhaltungsbereichen wie Filmen, bei denen der Fokus oft auf der Rekonstruktion grundlegender visueller Elemente liegt, bis hin zu körperhafter KI, die sich auf die Modellierung von Interaktionen und physischer Realität konzentriert. Aufgrund schneller Fortschritte in 3D-Repräsentationen und tiefen Lernarchitekturen hat sich das Feld rasch weiterentwickelt und übertraf den Umfang früherer Übersichtsarbeiten. Zudem bieten bestehende Übersichtsarbeiten selten eine umfassende Analyse der hierarchischen Struktur der 4D-Szenenrekonstruktion. Um diese Lücke zu schließen, präsentieren wir einen neuen Ansatz, der bestehende Methoden in fünf fortschreitende Ebenen der 4D-räumlichen Intelligenz unterteilt: (1) Ebene 1 – Rekonstruktion von niedrigen 3D-Attributen (z. B. Tiefe, Pose und Punktkarten); (2) Ebene 2 – Rekonstruktion von 3D-Szenenkomponenten (z. B. Objekten, Menschen, Strukturen); (3) Ebene 3 – Rekonstruktion dynamischer 4D-Szenen; (4) Ebene 4 – Modellierung der Interaktionen zwischen Szenenkomponenten; und (5) Ebene 5 – Einbeziehung physikalischer Gesetze und Einschränkungen. Wir schließen die Übersicht mit einer Diskussion der zentralen Herausforderungen auf jeder Ebene und der Aufzeigen vielversprechender Forschungsrichtungen ab, um die 4D-räumliche Intelligenz auf noch höhere Ebenen zu steigern. Um die aktuellen Entwicklungen zu verfolgen, halten wir eine aktuelle Projektseite aufrecht: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.