HyperAIHyperAI
vor 2 Monaten

PWOC-3D: Tiefgang-bewusste, von Anfang bis Ende durchgeführte Szene-Fluss-Schätzung

Rohan Saxena; René Schuster; Oliver Wasenmüller; Didier Stricker
PWOC-3D: Tiefgang-bewusste, von Anfang bis Ende durchgeführte Szene-Fluss-Schätzung
Abstract

In den letzten Jahren haben Faltungsneuronale Netze (CNNs) zunehmenden Erfolg bei der Lösung vieler Computer Vision Aufgaben, einschließlich dichter Schätzprobleme wie optischer Fluss und Stereo-Matching, gezeigt. Die gemeinsame Vorhersage dieser Aufgaben, als Szene-Fluss bezeichnet, wurde jedoch traditionell mit langsamen klassischen Methoden angegangen, die auf einfachen Annahmen basieren und sich nicht verallgemeinern lassen. Die in diesem Papier präsentierte Arbeit überwindet diese Nachteile effizient (in Bezug auf Geschwindigkeit und Genauigkeit), indem sie PWOC-3D vorschlägt, eine kompakte CNN-Architektur zur Vorhersage des Szene-Flusses aus Stereo-Bildsequenzen in einem end-to-end überwachten Setting. Zudem sind große Bewegungen und Verdeckungen bekannte Probleme bei der Schätzung des Szene-Flusses. PWOC-3D verwendet spezialisierte Designentscheidungen, um diese Herausforderungen explizit zu modellieren. In diesem Zusammenhang schlagen wir eine neuartige selbstüberwachte Strategie vor, um Verdeckungen aus Bildern zu schätzen (ohne irgende beschrifteten Verdeckungsdaten). Durch die Nutzung mehrerer solcher Konstruktionen erreicht unser Netzwerk wettbewerbsfähige Ergebnisse im KITTI Benchmark und dem anspruchsvollen FlyingThings3D-Datensatz. Insbesondere beim KITTI Benchmark erreicht PWOC-3D den zweiten Platz unter den end-to-end tiefen Lernalgorithmen mit 48-mal weniger Parametern als die beste Methode.

PWOC-3D: Tiefgang-bewusste, von Anfang bis Ende durchgeführte Szene-Fluss-Schätzung | Neueste Forschungsarbeiten | HyperAI