Command Palette
Search for a command to run...
Selbstüberwachtes monokulares Szenenfluss-Schätzen
Selbstüberwachtes monokulares Szenenfluss-Schätzen
Junhwa Hur Stefan Roth
Zusammenfassung
Die Schätzung von Szenenfluss hat für die 3D-Umgebungswahrnehmung zunehmend an Aufmerksamkeit gewonnen. Die monokulare Schätzung von Szenenfluss – die Gewinnung von 3D-Struktur und 3D-Bewegung aus zwei zeitlich aufeinanderfolgenden Bildern – stellt ein hochgradig schlecht gestelltes Problem dar, und bislang fehlen praktikable Lösungen. Wir stellen eine neuartige Methode zur monokularen Schätzung von Szenenfluss vor, die eine konkurrenzfähige Genauigkeit und Echtzeit-Leistung erzielt. Aus Sicht eines inversen Problems entwerfen wir ein einzelnes konvolutionales neuronal Netzwerk (CNN), das erfolgreich Tiefeninformation und 3D-Bewegung gleichzeitig aus einem klassischen optischen Fluss-Kostenvolumen schätzt. Wir nutzen selbstüberwachtes Lernen mit 3D-Verlustfunktionen und Ocklusions-Reasoning, um unlabeled Daten effizient zu nutzen. Wir validieren unsere Entwurfsentscheidungen, einschließlich des Proxy-Verlusts und der Augmentations-Setup. Unser Modell erreicht die derzeit beste Genauigkeit unter den Ansätzen, die auf unsupervisierter bzw. selbstüberwachter Lernmethodik basieren, und erzielt zudem konkurrenzfähige Ergebnisse bei den Teilproblemen optischer Fluss und monokulare Tiefenschätzung. Eine halbüberwachte Feinabstimmung verbessert die Genauigkeit weiter und führt zu vielversprechenden Ergebnissen in Echtzeit.