Command Palette
Search for a command to run...
MarrNet: Rekonstruktion dreidimensionaler Formen mittels 2,5D-Skizzen
MarrNet: Rekonstruktion dreidimensionaler Formen mittels 2,5D-Skizzen
Zusammenfassung
Die Rekonstruktion von 3D-Objekten aus einer einzigen Bildaufnahme ist ein hochgradig unterbestimmtes Problem, das starke Vorwissen über plausibele 3D-Formen erfordert. Dies stellt eine Herausforderung für lernbasierte Ansätze dar, da 3D-Objektannotierungen in realen Bildern rar sind. Frühere Arbeiten entschieden sich dafür, auf synthetischen Daten mit wahrer 3D-Information zu trainieren, leiden jedoch unter Domänenanpassungsproblemen, wenn sie auf realen Daten getestet werden. In dieser Arbeit stellen wir MarrNet vor, ein end-to-end trainierbares Modell, das sequenziell 2,5D-Skizzen und die 3D-Objektform schätzt. Unsere entkoppelte, zweistufige Formulierung bietet drei Vorteile. Erstens sind 2,5D-Skizzen im Vergleich zu vollständigen 3D-Formen deutlich einfacher aus einem 2D-Bild zu rekonstruieren; Modelle, die 2,5D-Skizzen schätzen, lassen sich zudem eher von synthetischen zu realen Daten übertragen. Zweitens können Systeme zur 3D-Rekonstruktion aus 2,5D-Skizzen rein auf synthetischen Daten lernen. Denn wir können realistische 2,5D-Skizzen problemlos generieren, ohne die Erscheinungsvariationen von Objekten in realen Bildern – wie Beleuchtung, Textur usw. – modellieren zu müssen. Dies verringert das Domänenanpassungsproblem weiter. Drittens leiten wir differenzierbare projektierte Funktionen von der 3D-Form auf 2,5D-Skizzen ab; das Framework ist daher end-to-end auf realen Bildern trainierbar, ohne menschliche Annotationen zu erfordern. Unser Modell erreicht einen Stand der Technik bei der Rekonstruktion von 3D-Formen.